Die häufigsten Eigenschaften, die zur Testgüte angegeben werden, sind die Sensitivität und Spezifität. Aber reichen diese aus, um einen Patienten als eindeutig „positiv“ oder „negativ“ zu diagnostizieren? Welche Faktoren müssen hier noch berücksichtigt werden? Prof. Dr. Wilhelm Behringer vom Zentrum für Notfallmedizin in Jena erklärt die wichtigsten Begriffe der Testgüte und ihre praktische Bedeutung im klinischen Alltag.
Die Qualität oder Testgüte des Tests ergibt sich aus der Sensitivität und Spezifizität des Tests. Einen Überblick gibt eine Vierfeldertafel, in der die gesunden und kranken Patienten und die positiven und negativen Ergebnisse angeführt werden: richtig positiv (rp), falsch positiv (fp), richtig negativ (rn) und falsch negativ (fn). Die Sensitivität bezieht sich auf das Kollektiv der kranken Patienten und misst den Prozentsatz der Kranken, die korrekt als solche erkannt werden (rp/rp+fn). Die Spezifität bezieht sich auf das Kollektiv der gesunden Patienten und misst den Prozentsatz der Gesunden, die korrekt als solche erkannt werden (rn/rn+fp).
Der Patient kommt mit einem positiven oder negativen Test zum Arzt und möchte wissen, ob er tatsächlich krank oder gesund ist. Zur Beantwortung dieser Frage und für die weitere Interpretation des Testergebnisses hilft weder Sensitivität noch Spezifität, sondern wir brauchen den positiven und negativen Vorhersagewert, die wir wieder aus der Vierfeldertafel berechnen können. Der positive Vorhersagewert bezieht sich auf die positiven Ergebnisse und misst den Prozentsatz der korrekt positiven Ergebnisse aus allen positiven Ergebnissen (rp/rp+fp). Der negative Vorhersagewert bezieht sich auf die negativen Ergebnisse und misst den Prozentsatz der korrekt negativen Ergebnisse aus allen negativen Ergebnissen (rn/rn+fn).
Sensitivität und Spezifität sind testbezogen und geben nur Auskunft über die Testqualität, während positiver und negativer Vorhersagewert patientenbezogen sind und Auskunft geben, wie wahrscheinlich ein Patient mit positivem Test tatsächlich krank oder mit negativem Test tatsächlich gesund ist.
Nehmen wir an, ein Test hat eine Sensitivität von 97 % und eine Spezifität von 90 %. Der Test wird zunächst in einem Kollektiv von 100 kranken und 1.000 gesunden Patienten evaluiert (Prävalenz 9 %). Aus der Vierfeldertafel ergibt sich ein positiver Vorhersagewert von 49 % (97/97+100) und ein negativer Vorhersagewert von 99,7 % (900/3+900), das heißt, die Wahrscheinlichkeit, dass ein Patient mit positivem Befund wirklich krank ist, liegt bei 49 % – wie bei einem Münzwurf –, und die Wahrscheinlichkeit, dass ein Patient mit negativem Befund wirklich gesund ist, liegt bei nahezu 100 %. Nun wird der Test in einem Kollektiv mit 1.000 kranken und 100 gesunden Patienten evaluiert (Prävalenz 91 %). Aus der Vierfeldertafel ergibt sich nun ein positiver Vorhersagewert von 99 % (970/970+10) und ein negativer Vorhersagewert von 75 % (90/30+90), das heißt, in diesem Patientenkollektiv mit höherer Prävalenz liegt die Wahrscheinlichkeit, dass ein Patient mit positivem Befund wirklich krank ist, bei fast 100 %, und die Wahrscheinlichkeit, dass ein Patient mit negativem Befund wirklich gesund ist, nur noch bei 75 %.
Ganz allgemein ausgedrückt, mit zunehmender Prävalenz steigt der positive und sinkt der negative Vorhersagewert und mit abnehmender Prävalenz steigt der negative und sinkt der positive Vorhersagewert eines Tests. Das Wissen um die Abhängigkeit der Testinterpretation von der Prävalenz ist besonders wichtig, wenn der gleiche Test in unterschiedlichen Umgebungen verwendet wird: Das Patientengut in der Hausarztpraxis zeigt in der Regel eine niedrigere Prävalenz als das Patientengut einer Spitalsambulanz, das heißt, Patienten sind in einer Hausarztpraxis mit negativem Befund mit höherer Wahrscheinlichkeit als in der Spitalsambulanz wirklich gesund und in einer Spitalsambulanz mit positivem Befund mit höherer Wahrscheinlichkeit als in der Hausarztpraxis wirklich krank.
In der Hausarztpraxis sind die Zahlen für eine Vierfeldertafel nicht verfügbar. Verfügbar sind allerdings fast immer die Angaben über die Sensitivität und Spezifität und davon abgeleitet die positive und negative Likelihood Ratio des anzuwendenden Tests sowie die Prävalenz (Vortestwahrscheinlichkeit) für eine Erkrankung, basierend auf Literatur oder diversen Risiko-Scores. Das Bayes Theorem besagt: Die Vortestwahrscheinlichkeit multipliziert mit der Testgüte ergibt die Nachtestwahrscheinlichkeit. Mithilfe des Fagan Nomogramms kann man ohne Formelrechnung für jede beliebige Vortestwahrscheinlichkeit abhängig von der Likelihood Ratio die Nachtestwahrscheinlichkeit für einen positiven oder negativen Test bestimmen.
Die Nachtestwahrscheinlichkeit hilft bei der Planung des weiteren Vorgehens. Hierbei sind zwei Begriffe notwendig: die Testschwelle und die Behandlungsschwelle. Wenn die Wahrscheinlichkeit für eine Erkrankung unterhalb der Testschwelle liegt, so sollte keine weitere Diagnostik durchgeführt werden, weil die potenziellen Nebenwirkungen weiterer eventuell falsch positiver Befunde und deren Behandlungskonsequenzen die Vorteile der Behandlung der wenigen vielleicht doch diagnostizierten Erkrankungen überwiegen. Als Beispiel seien Patienten mit Verdacht auf Pulmonalembolie genannt, für die in der Literatur eine Testschwelle von < 2 % angegeben wird. Wenn die Wahrscheinlichkeit für die Erkrankung über der Behandlungsschwelle liegt, so ist ebenfalls keine weitere Diagnostik notwendig. Nur wenn die Wahrscheinlichkeit für eine Erkrankung zwischen der Testschwelle und der Behandlungsschwelle liegt, ist eine weitere Diagnostik indiziert. Allerdings sind Testschwelle und Behandlungsschwelle oft nicht in der Literatur zu finden und müssen mit den Patienten individuell besprochen und diskutiert werden.
Das Prinzip der Risikostratifizierung und Testauswahl lässt sich relativ einfach und schnell auf alle klinischen Situationen gleichermaßen anwenden, egal ob wir das Risiko für eine Koronarerkrankung oder das Risiko für eine Appendizitis mittels eines diagnostischen Tests abschätzen wollen. Wann immer wir einen Test machen, sollten wir uns vorher überlegen, wie hoch die Wahrscheinlichkeit für die Erkrankung ist, ob wir einen bestimmten Test überhaupt brauchen, ob uns ein bestimmter Test weiterhilft, und was das Ergebnis für unsere Patienten bedeutet. Rechtfertigt eine niedrige Wahrscheinlichkeit für eine Erkrankung die Konsequenzen einer weiterführenden (Über-) Diagnostik? Auf jeden Fall sollte immer auch eine individuelle Risikoabschätzung im Dialog mit dem Patienten oder dessen Angehörigen Bestandteil der Abklärung sein.