UIM 08|2023
Zur Ausgabe »
Stark vereinfacht und in Anbetracht der Tatsache, dass es derzeit keine international vereinbarte Definition gibt, stellt künstliche Intelligenz (KI) ein System dar, das Rechenleistung mit Datensätzen (idealerweise Big Data) kombiniert, um Problemlösungen zu ermöglichen. Ein typischer Zweig der KI ist das maschinelle Lernen, bei dem verschiedene Algorithmen verwendet werden, um aus Daten zu lernen, und das sich damit deutlich von dem (menschlichen) Versuch unterscheidet, ein spezifisches Computerprogramm zu schreiben, um eine bestimmte Aufgabe zu erfüllen.
Maschinelles Lernen (ML) kann auf verschiedenen Lernansätzen beruhen, von denen die wichtigsten das überwachte und das unüberwachte Lernen sind. In den letzten zehn Jahren hat sich das überwachte ML als am effizientesten erwiesen und ist daher zur Hauptsäule der KI-gestützten Anwendungen im Gesundheitswesen geworden.
Um ein System zu trainieren, das auf überwachtem Lernen basiert, muss die Maschine mit bereits verfügbaren und robusten Daten gefüttert werden, da die Qualität dieser Eingabedaten die Qualität der Ausgabe bestimmt (Dimai HP, J Clin Endocrinol Metab 2023).
Um beispielsweise eine Maschine für die Erkennung von Hüftfrakturen auf einem konventionellen Röntgenbild zu trainieren, muss man den ML-Algorithmus mit einer Reihe konventioneller Hüftröntgenbilder füttern, die frakturierte und nichtfrakturierte Hüften enthalten. Außerdem muss man dem System mitteilen, welche Hüften frakturiert sind und welche nicht – ein Prozess, der auch als „Annotation“ von Bildern bezeichnet wird. Im Allgemeinen wird der Algorithmus umso besser in der Lage sein, Frakturen zu erkennen, je mehr solcher annotierten Bilder ihm zur Verfügung stehen.
Deep Learning ist eine leistungsfähigere Untergruppe von ML mit einer Architektur, die dem menschlichen Gehirn insofern ähnelt, als dass mehrere Schichten von „Neuronen“ miteinander verbunden sind und ein sogenanntes neuronales Netz bilden. Unter den derzeit verfügbaren neuronalen Netzen sind die sogenannten faltungsneuronalen Netze (Convolutional neural Networks, CNN) die am häufigsten im Gesundheitswesen verwendeten.
Die Gründe für die Anwendung opportunistischer Methoden zur operativen Diagnose der Osteoporose sind vielfältig. So basiert beispielsweise die Goldstandard-Methode zur Diagnose von Osteoporose gemäß den Empfehlungen der WHO auf der Messung der Knochenmineraldichte (BMD) mittels DXA (Dual-Röntgen-Absorptiometrie). Der Zugang zu DXA-Geräten hängt jedoch weitgehend von deren Verfügbarkeit ab. Neben der Anzahl der in einem Land verfügbaren DXA-Geräte und einigen patientenbezogenen Hindernissen wie Reisezeit und Transportmöglichkeiten spielen auch regulatorische Einschränkungen und Hindernisse bei der Kostenerstattung eine wichtige Rolle.
Eine kürzlich durchgeführte Untersuchung hat gezeigt, dass die Anzahl der DXA-Geräte pro Million Einwohner:innen eines Landes von weniger als 10 (was als unzureichend angesehen wird) bis zu mehr als 50 reicht. In den meisten Ländern weltweit (nicht jedoch in Österreich) wird die Zahl der verfügbaren DXA-Geräte als unzureichend angesehen. Daher besteht ein eindeutiger Bedarf an der Anwendung alternativer Methoden, die idealerweise in größerem Umfang zur Verfügung stehen sollten, wie z. B. die konventionelle Radiologie.
In der Zahnmedizin und insbesondere in der Zahnimplantologie werden beispielsweise seit vielen Jahren Panoramaröntgenaufnahmen verwendet, um Informationen über die quantitativen und qualitativen Eigenschaften des Kieferknochens zu gewinnen, allerdings mit eher unbefriedigenden Ergebnissen.Darüber hinaus wurde empfohlen, Patient:innen an Ärzt:innen zu überweisen, wenn aufgrund von Panoramaröntgenaufnahmen der Verdacht auf Osteoporose besteht.
Es gibt also gute Gründe für die Entwicklung von KI-gestützten Instrumenten zur Verbesserung der diagnostischen Leistung solcher opportunistischen Osteoporose-Screening-Methoden. In einer vorläufigen Studie, zu der bisher noch keine vollständige Studie veröffentlicht wurde, wurde beispielsweise eine Reihe verschiedener CNNs auf Panoramaröntgenaufnahmen angewendet, um Osteoporose zu diagnostizieren. Je nach verwendetem CNN lagen die AUC-Werte zwischen 0,98 und 0,99. Anstelle der DXA als Goldstandard-Referenztechnologie wurde die Diagnose einer Osteoporose jedoch gestellt, wenn zwei erfahrene Mund-, Kiefer- und Gesichtsradiolog:innen auf denselben Röntgenbildern kortikale Erosionen feststellten. In einer anderen Studie wurden 4 verschiedene CNN-Modelle untersucht, und es wurde festgestellt, dass das Transfer-Lernen und die Feinabstimmung solcher CNNs die diagnostische Leistung erheblich verbessern können – bis zu einem AUC von 0,86. Die Ergebnisse dieser Studie klingen jedoch nicht nur weniger vielversprechend, sondern die klinische Relevanz wird auch dadurch stark beeinträchtigt, dass keine Angaben zur verwendeten Referenztechnologie gemacht wurden.
KI-basierte Softwarelösungen für die opportunistische Diagnose von Osteoporose wurden auch unter Verwendung konventioneller Röntgenbilder von Hand und Handgelenk entwickelt. So wurden in einer Studie die kortikale Radiogrammetrie vom Schaft des dritten Mittelhandknochens und die spongiöse Texturanalyse vom distalen Radius zum Trainieren und Testen des Algorithmus verwendet, während die DXA als Referenzstandard diente. Die entwickelte Software wies eine Genauigkeit von nahezu 89 % auf, was sie zu einer interessanten Option für eine breitere klinische Anwendung machen könnte.
Andere Methoden, die für die Diagnose von Osteoporose vorgeschlagen wurden, sind z.B. die Computertomografie (CT), die quantitative Computertomografie (QCT) und der quantitative Ultraschall. Im Allgemeinen liefern diese Methoden T-Werte, die eine Einteilung in „normal“, „osteopenisch“ und „osteoporotisch“ ermöglichen würden. Da jedoch alle diese alternativen Technologien unterschiedliche Knocheneigenschaften erfassen, die zu unterschiedlichen Risikogradienten führen, können die ermittelten T-Werte nicht einfach mit den von der DXA abgeleiteten T-Werten ausgetauscht werden. Andererseits ist zu bedenken, dass es unabhängig vom Goldstandard-Status der DXA Hinweise darauf gibt, dass die durch opportunistische QCT der Wirbelsäule ermittelte BMD einen höheren Zusammenhang mit dem Risiko von Wirbelkörperfrakturen aufweist als die mit DXA gemessenen T-Werte.
Die zahlreichen bildgebenden KI-Instrumente für die opportunistische Diagnose von Osteoporose haben vor kurzem zu einer ersten systematischen Überprüfung und Metaanalyse geführt. Insgesamt kamen 7 Studien mit mehr als 3.000 Patient:innen für die Einbeziehung in Frage. Unter Verwendung eines Modells mit zufälligen Effekten lag die gepoolte Sensitivität bei 0,96 und die gepoolte Spezifität bei 0,95. Wie die Autor:innen richtig anmerken, sollten die Ergebnisse jedoch aufgrund des hohen Risikos einer Verzerrung bei der Patientenauswahl und der großen Heterogenität mit Vorsicht interpretiert werden. In diesem Zusammenhang ist auch anzumerken, dass von den 7 eingeschlossenen Studien nur 3 die DXA-Technologie als Referenzstandard verwendet haben.
Eine der wichtigsten Säulen im Osteoporose-Management ist die Frakturerkennung in konventionellen Röntgenbildern. Daher ist es nicht verwunderlich, dass bisher eine beträchtliche Anzahl von KI-gestützten Software-Tools zur Frakturerkennung entwickelt wurde.
Wirbelfrakturen sind die häufigsten osteoporotischen Frakturen, aber nur ein Drittel von ihnen wird sofort klinisch bemerkt, der Rest wird mehr oder weniger zufällig oder im Rahmen der diagnostischen Bewertung von chronischen Rückenschmerzen entdeckt. Bei konventionellen Röntgenaufnahmen der Wirbelsäule oder des Brustkorbs, insbesondere wenn sie aus anderen Gründen als dem Ausschluss oder der Diagnose einer Wirbelkörperfraktur angefertigt werden, ist die Entdeckungsrate von Wirbelkörperfrakturen nachweislich gering. Daher wurden weltweit Sensibilisierungsprogramme wie die Capture-the-Fracture-Initiative entwickelt, um die diagnostische Leistung von Fachärzt:innen in dieser Hinsicht zu verbessern. Neben der Steigerung des Bewusstseins scheint die technische Unterstützung in Form von KI-basierten Software-Tools eine logische Ergänzung zu sein. Daher ist die automatische Erkennung von Wirbelfrakturen in konventionellen Röntgenbildern von Brustkorb und Wirbelsäule kürzlich in den Fokus der KI-Entwickler:innen gerückt. So wurde beispielsweise ein KI-basiertes Software-Programm zur Erkennung von Wirbelfrakturen auf seitlichen Thorax-Röntgenaufnahmen älterer Frauen entwickelt. Die Software berücksichtigt eine semiquantitative Kategorisierung dieser Frakturen gemäß der Genant-Klassifikation, die drei verschiedene Grade des Höhenverlustes umfasst, nämlich: leicht (20–25 %; Grad 1), mittelschwer (25–40 %; Grad 2) und schwer (> 40 %; Grad 3).
Der Schweregrad der Wirbelfrakturen, d. h. das Ausmaß des Höhenverlustes, hat insofern eine wichtige klinische Bedeutung, als dass das Risiko einer späteren Fraktur bei Patient:innen mit einer Wirbelfraktur des Grades 3 am höchsten ist. Außerdem hat sich gezeigt, dass die Wirksamkeit von Osteoporose-Medikamenten gegen Frakturen vom Schweregrad (und von der Anzahl) der Wirbelfrakturen abhängt. Insgesamt scheint die diagnostische Leistung (d. h. Sensitivität, Spezifität und Genauigkeit) dieses Instruments vielversprechend zu sein, auch wenn die Ergebnisse für Wirbelfrakturen, die nur Verluste der Schweregrade 1 und 2 aufweisen, weniger überzeugend sind.
Da herkömmliche Röntgenaufnahmen der Wirbelsäule, die unmittelbar nach einem Trauma angefertigt werden, manchmal keine morphologischen Veränderungen zeigen, werden zusätzlich fortschrittliche medizinische Bildgebungsverfahren wie Magnetresonanztomografie (MRT) und CT eingesetzt. Die MRT wird zum Beispiel häufig eingesetzt, um ein Knochenmarködem als Indikator für das Vorliegen eines Wirbelbruches zu erkennen. Klinisch können solche Informationen als Entscheidungshilfe dienen, wenn eine Wirbelkörperaugmentation in Betracht gezogen wird. In diesem Zusammenhang wurde kürzlich ein KI-basierter Algorithmus zur automatischen Erkennung frischer osteoporotischer Wirbelfrakturen entwickelt, wobei „frisch“ als ein Zeitraum von 3 Monaten nach der jeweiligen Verletzung definiert wurde. Der schließlich gewählte KI-Algorithmus war eine Kombination aus 4 verschiedenen CNN-Modellen (d.h. ein „Ensemble“), das die beste Leistung erbrachte und mit der Leistung von 2 erfahrenen Wirbelsäulenchirurg:innen vergleichbar war. Die Bildausgabe dieses KI-Tools liefert eine farbkodierte Klassifizierung der Wirbel in „normal“, „frisch frakturiert“ und „alt frakturiert“. Die Autor:innen kommen zu dem Schluss, dass der in dieser Studie entwickelte Algorithmus einen Beitrag zur täglichen Versorgung von Osteoporose-Patient:innen leisten kann, indem er dazu beiträgt, Fehldiagnosen von frischen osteoporotischen Wirbelfrakturen zu reduzieren, insbesondere in Krankenhäusern ohne Radiolog:innen oder Wirbelsäulenchirurg:innen.
Zur Abschätzung der 10-Jahres-Frakturwahrscheinlichkeit einer Person wird FRAX® weltweit am häufigsten verwendet – ein online verfügbares, kostenloses Instrument zur Einschätzung des Frakturrisikos, das mehr als 80 länder- und regionalspezifische Versionen umfasst. Dieses Instrument deckt etwa 80% der Weltbevölkerung ab und wird in fast allen nationalen Osteoporose-Leitlinien zur Anwendung empfohlen. Es basiert in erster Linie auf klinischen Risikofaktoren wie prävalenten Frakturen, elterlichen Hüftfrakturen, Glukokortikoidtherapie, Rauchen und Alkoholmissbrauch und kann mit oder ohne DXA-basierte BMD-Ergebnisse verwendet werden. In den letzten Jahren wurde eine Reihe von KI-basierten Modellen zur Vorhersage des Frakturrisikos entwickelt. In einer kürzlich durchgeführten prospektiven gemeindebasierten Kohortenstudie wurde beispielsweise ein neuartiges KI-basiertes Frakturvorhersagemodell entwickelt, dessen Leistung mit der länderspezifischen Version von FRAX® verglichen wurde.
Von drei verschiedenen Modellen, die entwickelt wurden, wies jenes, das am besten abschnitt, eine AUC von 0,688 für die Frakturvorhersage auf, die deutlich besser war als die von FRAX® erreichte. Die bedeutendsten Risikofaktoren für die Vorhersage waren die BMD der gesamten Hüfte, der Lendenwirbelsäule und des Oberschenkelhalses. Überraschenderweise wurden sogar Faktoren wie ein subjektiver Arthralgie-Score, Serumkreatinin und Homocystein höher eingestuft als herkömmliche Prädiktoren wie Alter oder prävalente Frakturen. In einer anderen Studie, die auf Längsschnittdaten aus einer größeren Kohorte basierte, wurden CNN-basierte Modelle unter Verwendung konventioneller Röntgenaufnahmen der Wirbelsäule entwickelt.
Es wurde festgestellt, dass das Modell, das nur Röntgenaufnahmen der Ausgangssituation verwendete, eine mit FRAX® vergleichbare Vorhersage des Wirbelkörperbruchrisikos lieferte. Bei Verwendung der Datensätze, die DXA-Ergebnisse enthielten, war die Vorhersageleistung des KI-Modells sogar höher als die von FRAX®. Allerdings sind auch diese Ergebnisse mit Vorsicht zu interpretieren, da FRAX® eine 10-Jahres-Frakturwahrscheinlichkeit angibt, während keine der hier erwähnten Studien für Vorhersagen über einen Zeitraum von 10 Jahren ausgelegt war. Darüber hinaus ist zu bedenken, dass ungeachtet der beeindruckenden Leistung dieser KI-Modelle in der untersuchten Population die Ergebnisse nicht einfach auf andere Populationen extrapoliert werden können, da sich die Ausgangsfrakturrisiken in den verschiedenen Populationen deutlich unterscheiden können.
Die Frage, wer wann zu behandeln ist und mit welchem Osteoporose-Medikament die Frakturwahrscheinlichkeit von Patient:innen am wirksamsten reduziert werden kann, war in den letzten drei Jahrzehnten Gegenstand von Diskussionen. Gegenwärtig besteht ein weltweiter Konsens zwischen den meisten wissenschaftlichen Gesellschaften, die sich mit Osteoporose befassen, dass Patient:innen, die eine Fraktur mit geringem Trauma erlitten haben, eine Osteoporosebehandlung mit nachgewiesener Wirksamkeit gegen Frakturen erhalten sollten. Dieser Ansatz stützt sich auf eindeutige Belege dafür, dass eine erste Fraktur – manchmal auch als Sentinelfraktur bezeichnet – ein starker Prädiktor für eine spätere Fraktur ist, wobei die Wahrscheinlichkeit innerhalb der ersten 12 bis 24 Monate nach der Fraktur am höchsten ist.
Personen, die in den letzten 12 bis 24 Monaten eine osteoporotische Fraktur erlitten haben, gelten daher als Personen mit einem sehr hohen (oder unmittelbar bevorstehenden) Risiko. Darüber hinaus werden Knochenaufbaupräparate wie Teriparatid oder Romosozumab derzeit als Erstbehandlung für diese Patient:innen empfohlen, da sie im Vergleich zu antiresorptiven Medikamenten eine frühzeitige und ausgeprägtere Wirkung gegen Frakturen haben. Es besteht jedoch weniger Einigkeit darüber, wann eine Behandlung bei einem/einer Patient:in ohne prävalente Fraktur eingeleitet werden sollte, obwohl die derzeitigen Konzepte auf der logischen Schlussfolgerung beruhen, dass Patient:innen mit einer prävalenten Fraktur eine Osteoporose-Behandlung erhalten müssen, während alle anderen Patient:innen behandelt werden müssen, wenn ihre Frakturwahrscheinlichkeit mindestens der von Patient:innen desselben Alters und Geschlechts entspricht. Zur Berechnung des Frakturrisikos stehen jedoch unterschiedliche Instrumente zur Verfügung, und die Einstufung des Risikos, z. B. in hoch oder sehr hoch, kann je nach den jeweiligen Leitlinien und/oder Empfehlungen unterschiedlich ausfallen. Dennoch spricht ein gewisser Anteil der Osteoporose-Patient:innen, die eine „angemessene“ Behandlung mit nachgewiesener Wirksamkeit gegen Frakturen erhalten, nicht darauf an.
In Anbetracht dieser Tatsachen ist es nicht verwunderlich, dass sich Software-Entwickler:innen in jüngster Zeit verstärkt um die Nutzung von Big Data bemühen, die in Form von elektronischen Krankenakten von verschiedenen Gesundheitssystemen und Anbietern zur Verfügung gestellt werden. So basierte beispielsweise ein kürzlich entwickelter KI-Algorithmus zur Vorhersage der behandlungsbedingten BMD-Antwort auf den elektronischen Krankenakten von mehr als 15.000 Osteoporose-Patient:innen, die über einen Zeitraum von 10 Jahren beobachtet wurden. Neben 5.200 Codes der Internationalen Klassifikation der Krankheiten berücksichtigte der Algorithmus etwa 30.000 BMD-Ergebnisse und mehr als 3.500 verschiedene Medikamente, aber insbesondere nur 7 verschiedene Laborparameter, wobei die gesamte alkalische Phosphatase der einzige Parameter war, der im Hinblick auf den Knochenumsatz von einiger Bedeutung war. Weder Vitamin D noch ein etablierter Knochenresorptions- oder -formationsmarker wurden berücksichtigt. Von den 7 verschiedenen entwickelten ML-Algorithmen zeigte jener mit der besten Leistung bei der Vorhersage des Ansprechens auf die Behandlung in Bezug auf die BMD-Zunahme eine operative Empfängercharakteristik von 0,70 und eine Genauigkeit von 0,69. Neben allen relevanten klinischen Informationen enthält ein typischer Ausdruck dieser KI-basierten Software auch eine Liste potenziell in Frage kommender Arzneimittel, einschließlich Informationen darüber, welches dieser Arzneimittel am ehesten mit dem höchsten BMD-Anstieg verbunden wäre.
Zusammenfassend lässt sich sagen, dass in den letzten Jahren eine große Anzahl von KI-Algorithmen entwickelt wurde, um das Management der Osteoporose zu erleichtern, einschließlich der Diagnose, der Bewertung des Frakturrisikos, der Erkennung von Frakturen, der Bewertung der Knochenqualität und der Behandlungsentscheidung. Soweit zutreffend, zeigen Leistungsvergleiche zwischen solchen Lösungen und Ärzt:innen ähnliche Ergebnisse oder fallen sogar zugunsten des KI-Algorithmus aus. Insbesondere die Radiomik einschließlich KI-gestützter opportunistischer Methoden zur BMD-Bewertung in Verbindung mit klinischen Daten scheint ein großes Potenzial für die Früherkennung von Patient:innen mit erhöhtem Frakturrisiko zu haben. Doch auch wenn die Studienergebnisse auf den ersten Blick vielversprechend erscheinen, sollten die methodischen Ansätze hinter einem neu entwickelten KI-Algorithmus stets sorgfältig gelesen und kritisch bewertet werden. Die Verwendung unzureichender Referenzstandards oder die Auswahl von Merkmalen (d. h. Variablen), die in der klinischen Praxis von geringem oder gar keinem Wert sind, sind Einschränkungen, die nicht selten in Studien zur Entwicklung von KI zu finden sind.
Sobald diese Qualitätsanforderungen erfüllt sind, kann das Potenzial der KI zur Revolutionierung des Osteoporose-Managements voll ausgeschöpft werden, und die Vorteile für Ärzt:innen, Patient:innen und das Gesundheitswesen im Allgemeinen werden in Zukunft wahrscheinlich besser sichtbar und sinnvoller.
Weiterführende Literatur und eigene Erfahrungen: Ein Übersichtsartikel zu aktueller Literatur und Fragestellungen zu KI bei Osteoporose von Herrn Univ.-Prof. Dr. Hans Peter Dimai von der Medizinischen Universität Graz „New Horizons: Artificial Intelligence Tools for Managing Osteoporosis“ ist im April 2023 im Journal of Clinical Endocrinology and Metabolism (Open Access) erschienen.
Der Autor dieser Zeilen hat/sammelt derzeit Erfahrungen mit KI (Radionomic Features) und der Auswertung von 3D-CT-Rekonstruktionen nach proximaler Humerus-Fraktur und einer möglichen Beschleunigung der Frakturheilung mit einer Behandlung mit Teriparatid vs. Placebo über einen Zeitraum von 12 Wochen … Stay tuned!