Vor kurzem habe ich einen Artikel über die Aussagekraft von pflegegestützten Triagesystemen gelesen. Gerne wird über die Genauigkeit von MTS oder ESI debattiert. Hierbei wird gerne als “Messgröße” für die Übereinstimmung das statistische Maß von “Kappa” verwendet.
Aber was bedeutet “kappa´”, wie wird es berechnet und was ist vor allem die Aussagekraft dieses statistischen Wertes? Nun, das ist mathematisch relativ einfach: das “ungewichtete Kappa” wird berechnet aus dem Quotienten der beobachteten Ereignisse zu den erwarteten Ereignissen. Kappa=1 bedeutet, dass zwei Beobachter immer die gleiche Aussage treffen, kappa=0 bedeutet, dass zwischen zwei Beobachtern KEINE Übereinstimmung zu finden ist …. also alles zufällig ist. Alles lässt sich gut aus einer Vierfeldertafel ableiten. In wirklich hervorragender Weise ist dies in einem schon 10 Jahre alten Artikel in Family Medicine mit einfachen und verständlichen Worten beschrieben.
Auch die Limitationen und das Paradox von niedrigen Werten bei niedriger Prävalenz positiver Ereignisse ist diskutiert. Über die Bewertung von kappa hatte ich mit anderen Koautoren vor einigen Jahren in Bezug auf Triagesysteme in Deutschland diskutiert.
Interessant in diesem Zusammenhang ist, dass die Übereinstimmung (Reliabilität), aufgrund von Anamnese und körperlichen Untersuchungsbefund die Diagnose einer Pneumonie zustellen, bei zwei unterschiedlichen Ärzten ein kappa=0,51 ergibt. Es handelt sich hierbei um eine moderate Übereinstimmung und Teil der klinischen Realität.
Bei den in Deutschland angewendeten Triagesystemen liegt das Kappa meist über 0,75, was klinisch gar nicht so schlecht ist. Zwei Untersucher kommen damit relativ häufig in ihrer Einschätzung auf das gleiche Ergebnis.
Das Kappa sagt nun aber noch nichts über die Genauigkeit (accuracy oder auch Validität) dieser Einschätzung. Gemeinsam kann man hier möglicherweise ganz schön daneben liegen ( vergleichbar mit einer Dartscheibe, in der verschiedene Werfer nie ins Schwarze treffen, sondern gemeinsam “voll daneben” liegen). Dies ist schön in der Abb. zu erklären: Die Reliabilität der oberen Abb. B ist hoch, liegt aber neben dem Ziel (niedrige Validität/Genauigkeit), während in Abb. D alles passt.
Ich denke, dass wir in unseren Argumenten und in unserem klinischen Handeln vorbereitet sein müssen, um konträren Argumentationen begegnen zu können. Und die Systematik der pflegegestützten Triage wird ja immer wieder in Frage gestellt.
Auch wenn´s nervt, Biometrie bzw. statistische Grundsätze sollte man verstehen. Dann ergeben sich verschiedene andere Punkte, wie z.B. auch die Interpretation von Studienergebnissen leichter. In einem Jahre zurückliegenden Post hatte ich ein wirklich spannendes und leicht verständliches Buch zu dieser Thematik diskutiert.
Also, nicht verzagen. Stay tuned and join again!