Das 1 × 1 der Studieninterpretation – Wie liest man eine Studie in der Rheumatologie?

Rund 2,5 Millionen wissenschaftliche Artikel werden jährlich weltweit veröffentlicht. Während die Anzahl an „Original articles“, „Concise reports“, „Reviews“ oder „Guidelines“ von Jahr zu Jahr zunimmt, sprießen nahezu täglich neue Journale aus dem Boden, mit dem Ziel der lukrativen Vermarktung von Wissen. Neben der Menge an Informationen hat sich auch die Art der Informationsvermittlung drastisch verändert. Brauchte man früher noch einen Universitätsaccount, um die „Paywall“ von teuren Journalen zu umgehen, reichen heutzutage wenige Clicks im Webbrowser aus, um sich das aktuellste Paper im Journal mit dem höchsten Impact-Ranking herunterladen zu können. Schattenbibliotheken wie „Sci-Hub“ werden täglich bis zu 600.000-mal für den Download von Fachliteratur aufgerufen und öffnen Tür und Tor für die nicht ganz legale Weitervermittlung neuen Wissens.
Selbst wenn man sich nur auf eine einzige Erkrankung des Menschen spezialisiert, ist es trotzdem nahezu unmöglich, die gesamte Studienlandschaft zu diesem Thema zu überblicken. Beispielsweise finden sich im Jahr 2019 allein für die Psoriasisarthritis 455 Studien auf PubMed – Tendenz steigend.
Während das Extrahieren relevanter Studien für gewisse Fragestellungen eine eigene Wissenschaft in sich selbst ist, die ihrerseits erst wieder zu neuen Artikeln (systematischen Literaturreviews) führt, ist das systematische Lesen, Interpretieren und Kritisieren von Artikeln aktuell wie nie zuvor.

Das PICO-Schema

Wie liest man also Studien? Zu diesem Thema existieren neben Comics (phdcomics.com) und Publikationen auch zahlreiche YouTube-Videos. Während alle das Thema etwas anders beleuchten, gibt es doch einige Punkte, die in der Mehrzahl der Fälle Erwähnung finden.
Wichtig ist, sich beim Lesen von wissenschaftlicher Literatur eine Struktur anzueignen. Eine Möglichkeit dafür bietet das „PICO-Schema“.
Bereits nach dem Lesen von Titel und Abstract kann man sich in den meisten Fällen eine schnelle Übersicht über die wichtigsten Punkte machen: P(atients) = die Patienten, die bei der Studie mitgemacht haben; I(ntervention) = die Intervention, die diese Patienten erhalten haben; C(omparison) = die Vergleichsgruppe zu den Patienten und O(utcome) = der Wert, anhand dessen Patienten und Vergleichsgruppe miteinander verglichen werden.
Als einfaches Beispiel eine randomisiert kontrollierte Studie: Eine Hälfte von Patienten mit Psoriasisarthritis (P) erhielt ein Biologikum (I), während die andere Hälfte ein Placebo erhielt (C); nach 12 Wochen wurde die Anzahl an schmerzhaften Gelenken miteinander verglichen (O). Eine kurze Notiz zu diesen vier Punkten nach dem Lesen des Abstracts ist oft hilfreich, um ein schnelles Grundverständnis über die vorliegende Studie zu erhalten.

Methoden und Bias

Während die Einleitung oft genauere Erklärungen zur Motivation einer Studie liefert, kann diese bei einem gewissen Grundwissen über die Materie auch übersprungen werden, um sich dem Herzstück eines Artikels, der Methoden- und Resultate-Sektion, zu widmen. Im ersten Schritt gilt es nun herauszufinden, wie die initiale Fragestellung (siehe PICO-Schema) beantwortet wurde. Um auf das Beispiel von oben zurückzukommen: Wie wurde der Unterschied bei schmerzhaften Gelenken (O) bei Psoriasisarthritis (P) zwischen der Patientengruppe mit Biologikum (I) und mit Placebo (C) festgestellt? Hier könnten erste Schwachstellen einer Studie gefunden werden: Wussten die Ärzte, welche die schmerzhaften Gelenke (O) feststellten, ob ein Patient ein Biologikum (I) oder Placebo (C) erhielt (Observer-expectancy Bias)? Wurden die schmerzhaften Gelenke von verschiedenen Prüfern oder mit verschiedenen Methoden festgestellt (Measurement Bias)? Oder wurden nur Patienten mit Psoriasisarthritis ausgewählt, die nicht die Realität in einer Rheumatologie Ambulanz widerspiegeln (z. B. ausschließlich Patienten ohne zusätzliche Erkrankungen – Selection Bias)? All diese Probleme könnten zu einer „ungewollten“ Veränderung der Resultate führen, wobei auch bereits das Nichtvorhandensein dieser Informationen im Methodenteil kritisch zu hinterfragen wäre.

Resultate und Statistik

Nun, da wir wissen, was gemessen wurde und wie die Messungen stattgefunden haben, kommen wir zum Ergebnisteil der Studie. Demografische Daten wie Alter, Geschlecht oder Krankheitsdauer sind wesentlich, um festzustellen, ob beide Vergleichsgruppen – also Biologikum (I) und Placebo (C) – vergleichbar sind. Sollten in einer Gruppe die Patienten um im Schnitt 15 Jahre älter sein, könnte das den Vergleichswert – in diesem Fall die schmerzhaften Gelenke (O) – doch deutlich verzerren. Schließlich schmerzen Gelenke nicht nur bei der Psoriasasarthritis, sondern auch beispielsweise durch alters- und abnützungsbedinge Arthrosen. Wenn „die Anzahl an schmerzhaften Gelenken nach Therapie“ die Fragestellung ist, wäre es ebenfalls wichtig, zu wissen, ob denn die Patienten vor der Therapie eine ähnliche Anzahl an schmerzhaften Gelenken hatten, da sich sonst auch hier Fragen zur Aussagekraft der Ergebnisse stellen würden.
Wenn man nun die Resultate-Sektion gründlich durchstöbert, sollte man (normalerweise) recht schnell die Ergebnisse des primären Ziels (Unterschied an schmerzhaften Gelenken zwischen den Gruppen) auffinden. Ein Beispielsatz einer erfolgreichen Studie könnte lauten: Es konnte ein statistisch signifikanter Unterschied (p < 0,05) bei schmerzhaften Gelenken zwischen der Biologikum-Gruppe (Median: 3, Range 0–28) und der Placebo-Gruppe (Median: 5, Range: 0–33) gefunden werden. Was bedeutet dieses Ergebnis nun? Ein p-Wert von 0,05 (Abb.) kann anders formuliert so ausgedrückt werden: Sollte ich 100 Studien mit der gleichen Fragestellung machen, würde lediglich in 5 dieser Studien kein Unterschied zwischen der Biologikum- (I) und der Placebo-Gruppe (C) zu sehen sein. In den anderen 95 Fällen würde man einen Unterschied in der Anzahl der schmerzhaften Gelenke (O) feststellen können. Der p-Wert gibt also Information über die Reproduzierbarkeit der Ergebnisse (unter der Annahme gleicher Testbedingungen bei einer zweiten Studie). Ein Problem ergibt sich jedoch, wenn man sich nicht nur für die Anzahl der schmerzhaften Gelenke interessiert, sondern auch für Unterschiede in weiteren Variablen (Gelenkschwellung, Lebensqualität-Score, Ultraschall-Score etc.). Denn wenn man 100 verschiedene Tests durchführt und Unterschiede in den Ergebnissen ab einem p-Wert von 0,05 definiert, werden im Schnitt 5 Tests ein falsch positives Ergebnis liefern (= einen statistisch signifikanten Unterschied ergeben, obwohl in Wahrheit kein Unterschied vorliegt). Auch in der Statistik gilt: „Wer viel misst, misst viel Mist.“ Es gibt jedoch auch Methoden, um diesem Fehler zu entgehen. Eine Möglichkeit ist, die p-Werte an multiples Testen anzupassen, z. B. mittels Bonferroni-Korrektur: (0,05 [= p-Wert]/die Anzahl an durchgeführten Tests = adjustierter p-Wert). Ein Tipp bei Artikeln mit einer großen Anzahl an Testergebnissen: Suchen Sie in der Methodensektion nach einer Form der Korrektur für multiples Testen!
Wir wissen nun, dass in 95 % der Fälle Patienten nach einer Biologikatherapie (I) tatsächlich weniger schmerzhafte Gelenke hatten (O) als Patienten, die das Placebo erhielten (C). Neben dem p-Wert, also der statistischen Signifikanz, ist jedoch auch die Effektgröße von Interesse. Diese beschreibt, um wie viel ein Ergebnis vom anderen Ergebnis unterschiedlich war. In unseren Beispielsgruppen hatten Patienten, die ein Biologikum erhielten im Schnitt 2 schmerzhafte Gelenke weniger als die Vergleichsgruppe mit Placebo. Ob dieser Unterschied (sei er nun statistisch signifikant oder nicht) überhaupt klinisch relevant ist und die Einleitung einer immunsuppressiven Therapie rechtfertigt, ist eine andere Frage.

 

 

Diskussion

Obwohl man sich bei jeder Studie wohl zuerst die Konklusion durchliest, sollte man auch unbedingt nach den Limitationen der Studie in der Diskussion suchen. Hier kann man nun überprüfen, ob die Probleme, die einem beim Lesen aufgefallen sind, auch als solche aufgeführt werden, oder ob diese von den Autoren absichtlich oder unabsichtlich unter den Teppich gekehrt wurden.

Resümee

Wichtige Informationen werden heutzutage mit immer weniger Worten vermittelt (siehe Wörterlimit bei Twitter). Obwohl dies im Informationszeitalter unumgänglich ist, um neues Wissen überhaupt greifbar zu machen, ist das kritische Hinterfragen dieser Informationen wichtig wie nie zuvor. Ein kritisches Lesen von wissenschaftlichen Artikeln ist in den meisten Fällen auch ohne fortgeschrittene Statistikkenntnisse möglich, und einfache Hilfen, wie beispielsweise das PICO-Schema, können dabei unterstützen, Struktur in die Komplexität der Wissenschaft zu bringen. Für jene, die ihre Statistikkenntnisse dennoch etwas auffrischen möchten, empfiehlt sich die genial einfache YouTube-Reihe von Josh Starmer – StatQuest.