Künstliche Intelligenz als Assistenzsystem in der Hautkrebsdiagnostik

Weiterhin steigende Hautkrebsinzidenzen in Kombination mit einer alternden Bevölkerung (Durchschnittsalter in Deutschland für 2023: 44,6 Jahre) sorgen für erhebliche Belastungen im Gesundheitssystem. Dabei geht der demografische Wandel auch an der Ärzteschaft nicht spurlos vorüber. Fast 50 % der praktizierenden Ärzt:innen in Deutschland sind über 50 Jahre alt, rund 23 % sind sogar 60 Jahre und älter. Daher blicken wir auch in der Dermatologie einem zunehmenden Mangel an spezialisierten Fachärzt:innen entgegen. Es erscheint daher berechtigt, zukünftig auch auf automatisierte Diagnosesysteme für die Früherkennung von Hautkrebs zurückzugreifen. Die heutigen auf künstlicher Intelligenz (KI) basierenden Diagnosesysteme sind in der Lage, digitale Fotografien von Hautveränderungen zu analysieren und zu diagnostizieren (Computer Vision). Eine ganze Reihe von klinischen Studien konnte zeigen, dass gut ausgebildete Dermatolog:innen bei der Hautkrebsdiagnostik anhand von Abbildungen (Nahaufnahmen und dermatoskopische Aufnahmen) bereits heute von solchen KI-Systemen übertroffen werden können.1, 2 Die Anwendung von KI erfährt außerdem in der allgemeinen Bevölkerung, aber auch speziell bei Patient:innen und Ärzt:innen eine breite Akzeptanz.3, 4 So stellt sich perspektivisch die Frage, wie eine geeignete Kooperation von Dermatolog:innen mit KI-Systemen im klinischen Alltag aussehen könnte.

Definition „künstliche Intelligenz“ im engeren Kontext

Der Begriff der künstlichen Intelligenz wird im Alltag und insbesondere auch im Rahmen von Werbeversprechen häufig inflationär verwendet. Im engeren Kontext bildbasierter KI-Systeme für die Hautkrebsdiagnose ist der Begriff jedoch eng verknüpft mit dem „maschinellen Lernen“, genauer mit dem „deep learning“.5, 6 Solche KI-basierten Systeme imitieren menschliche Intelligenz und logisches Denken. Anhand tausender Bilder mit hinterlegten Referenzdiagnosen kann ein zuvor programmierter Algorithmus trainiert werden. Der eigentliche Lernprozess entspricht dabei einem „hierarchischen Repräsentationslernen“. So führen beispielsweise tausende Bilder von Melanomen und Melanomsubtypen zu einer „bildlichen Vorstellung“ der Charakteristika eines Melanoms (Repräsentationslernen). Beim „deep learning“ ist der KI-Algorithmus dazu in viele Schichten aus hintereinanderliegenden künstlichen Neuronen organisiert. Je mehr Schichten ein solches neuronales Netzwerk aufweist, umso tiefer ist es („deep“ beim „deep learning“). Während die ersten Schichten sehr einfache Bildeigenschaften wie Farb- oder Kontrastgrenzen erkennen, widmen sich tiefere Schichten immer komplexeren Mustern („hierarchisch“ organisiert). Mit jedem neuen Bild im Training kann die diagnostische Leistung des neuronalen „Deep learning“-Netzwerkes (DL-NN) minimal verbessert werden.7 Diese selbstlernenden Systeme funktionieren somit gänzlich unabhängig von vorher definierten und manuell programmierten Erkennungskriterien.8 Es sind jedoch sehr große Mengen an Daten für das Training erforderlich.9

Die Dermatologie bietet als visuell-morphologisches Fachgebiet zwar generell zahlreiche Chancen für den Einsatz solcher KI-Systeme, allerdings sind auch zahlreiche Limitationen zu beachten.

Chancen von KI-Systemen in der Hautkrebsdiagnostik

Aufgrund anhaltend steigender Hautkrebsinzidenzen ist eine frühzeitige Hautkrebserkennung von großem Stellenwert.10 Rechtzeitig diagnostiziert sind melanozytäre ebenso wie nichtmelanozytäre Hauttumoren meist durch operative Eingriffe heilbar. Besonders entscheidend ist die Abgrenzung des Melanoms von harmlosen melanozytären Nävi, wobei die Dermatoskopie unterstützend eingesetzt werden kann.11, 12

Ein erstes DL-NN (Moleanalyzer pro, FotoFinder Systems GmbH, Bad Birnbach, Deutschland) wurde nach ausgiebigen Leistungstests im Vergleich zu erfahrenen Dermatolog:innen im Jahr 2018 zur Diagnostik von Hautveränderungen in Europa zugelassen.13 Aufgrund des höheren Umfangs an morphologischen Details arbeitet dieses DL-NN mit dermatoskopischen Bildern. In seiner aktuellen Entwicklungsstufe kann der Algorithmus eine Hautveränderung sekundenschnell als maligne versus benigne und parallel als melanozytär versus nichtmelanozytär klassifizieren. Über diese Gruppierung gelingt meist eine detaillierte Diagnosefindung, obwohl keine automatisierte spezifische Diagnose gestellt wird. Ein Basalzellkarzinom würde beispielsweise als maligne und nichtmelanozytär klassifiziert, ein Nävus als benigne und melanozytär.

DL-NN verschiedener internationaler Forschergruppen zeigten in Studien eine beachtliche diagnostische Genauigkeit im Vergleich zu Dermatolog:innen. In einer frühen Studie konnten Esteva et al. eine ähnliche Leistung von 21 zertifizierten Dermatolog:innen und einem DL-NN für die Unterscheidung von Nävi und Melanomen zeigen.1 Haenssle et al. untersuchten daraufhin in einem Wettstreit „Mensch gegen Maschine“ ebenfalls die Differenzierung von Nävi und Melanomen mittels eines eigenen DL-NN und fanden eine Überlegenheit des KI-Systems gegenüber 58 teilnehmenden Dermatolog:innen, darunter 30 Expert:innen.2 Im Rahmen des vielbeachteten ISIC-2018-Wettbewerbes traten 512 Ärzt:innen gegen 129 Computeralgorithmen an, und die drei besten Computeralgorithmen waren den Topexpert:innen unter den Ärzt:innen überlegen.14 Nachdem ausreichend Proof-of-Principle-Daten für die Unterscheidung von Nävi und Melanomen vorlagen, begannen Arbeitsgruppen, das DL-NN-Training auf ein breiteres Spektrum an Hautläsionen zu erweitern. Durch die Integration der gängigsten benignen und malignen Differenzialdiagnosen in aktuellere Studien konnte zumeist eine vergleichbare Leistung von Dermatolog:innen und den neuronalen Netzwerken gezeigt werden.15 In letzter Zeit wurde zudem eine gute diagnostische Leistung für unpigmentierte Hautläsionen und Läsionen in Sonderlokalisationen (z. B. akrale Haut) belegt.16–18 Neben dermatoskopischen Aufnahmen können je nach vorherigem Training auch klinische Nahaufnahmen und Bilder histopathologischer Schnitte für die Beurteilung eingesetzt werden.19 Hierdurch ergeben sich neue Perspektiven in der Dermatohistopathologie.20, 21

Während der Großteil publizierter Studien jeweils die diagnostische Leistungsfähigkeit von „Mensch gegen Maschine“ untersuchte, konnten kürzlich erschienene Arbeiten zeigen, dass sich die diagnostische Trefferquote von Dermatolog:innen durch eine Zusammenarbeit mit KI-Systemen tatsächlich verbessert („Mensch mit Maschine“).22 Diese hoffnungsvollen Ergebnisse konnten im Rahmen einer vielbeachteten prospektiven Studie von Winkler et al. bestätigt werden.23

Erwähnenswert sind weitere KI-basierte Systeme für andere innovative diagnostische Verfahren. So können KI-Systeme in der konfokalen Laserscanmikroskopie oder optischen Kohärenzspektroskopie die Anwender:innen in der Diagnostik unterstützen und beispielsweise auf Basalzellkarzinome im Blickfeld hinweisen. Auch für die Beurteilung von Impedanzspektren bei der elektrischen Impedanzspektroskopie wird ein KI-basierter Klassifikator mit einer umfangreichen Trainingsdatenbank eingesetzt.

Limitationen von KI-Systemen in der Hautkrebsdiagnostik

Zunächst ist hier die fehlende Erklärbarkeit der von KI-Systemen getroffenen diagnostischen Entscheidungen zu nennen (sog. „blackbox“).24 Für ein besseres Verständnis der Entscheidungen eines Netzwerkes kann die Anfertigung von sogenannten „Heatmaps“ hilfreich sein, die alle für die jeweilige Diagnose relevanten Bildpixel farblich hervorheben.25, 26 So kann der/die Nutzer:in zumindest nachvollziehen, welche Bildareale für die Entscheidung des DL-NN wegweisend waren. Andere experimentelle Arbeiten zeigten, dass auch eine Annotation von erkannten Bildstrukturen mit standardisierten morphologischen Begriffen durch ein DL-NN möglich ist.27 Eine solche Beschriftung im Bild kann die Überprüfbarkeit einer KI-basierten Diagnose deutlich verbessern (markierte Struktur im Bild nicht nachvollziehbar, Diagnose vermutlich fehlerhaft und nicht vertrauenswürdig). Dieser Ansatz erfordert allerdings einen gesteigerten Sachverstand auf Seiten der Anwender:innen. Insgesamt liefern diagnostische KI-Systeme meist keine Angaben dazu, mit welcher Sicherheit oder Unsicherheit eine Diagnose gestellt wurde.

Eine weitere Limitation ist die geringe Anzahl diagnostischer Klassen der meisten KI-Systeme (z. B. binäre Unterscheidung benigne/maligne). Alternativ sind KI-Systeme mit einer höheren Anzahl von Diagnosekategorien (Mehrklassen- oder „Multi-Class“-Systeme) verfügbar, für die dann jeweils eine Vorhersagewahrscheinlichkeit angegeben wird. Trotz einer zunächst scheinbar genaueren Diagnosestellung stehenMulti-Class-DL-NN vor dem Problem, dass für eine Hautläsion engbeieinanderliegende Wahrscheinlichkeiten für Diagnosen resultieren können. Eine pigmentierte makulöse Hautveränderung im Gesicht kann aufgrund morphologischer Ähnlichkeiten vergleichbare (und damit wenig hilfreiche) Wahrscheinlichkeiten für Lentigo maligna, pigmentierte aktinische Keratose und solare Lentigo erhalten.

Verständlicherweise zeigen KI-Systeme für häufigere Diagnosen meist eine hohe diagnostische Leistungsfähigkeit, da viele Trainingsbilder verfügbar sind. Im Gegensatz hierzu ergibt sich eine limitierte diagnostische Leistungsfähigkeit für eher seltene Hautveränderungen und Tumorentitäten. Unsere Arbeitsgruppe konnte beispielsweise zeigen, dass superfiziell spreitende Melanome, Lentigo-maligna-Melanome sowie noduläre und akrale Melanome jeweils treffsicher diagnostiziert werden konnten, dies jedoch für Melanome der Schleimhaut oder des Nagelorgans nicht zutraf.28

Abb. 1: Eine dermatoskopische Aufnahme durchläuft das mehrschichtige neuronale Netzwerk und wird mit einem Malignitätsscore zwischen 0 und 1 bewertet. Das Bild zeigt ein superfiziell spreitendes Melanom, hier zutreffend mit einem hohen Malignitätsscore von 0,93 beurteilt.

Dermatoskopische Bilder von Schleimhaut- und Nageltumoren sind in Trainingsdatenbanken selten zu finden, sodass keine ausreichende Anzahl zur Verfügung steht. Dementsprechend ergeben sich Limitationen bei der Anwendung von KI-Systemen bei dunkelhäutigen Patient:innen, sofern kein spezifisches Training für Hauttypen IV–VI nach Fitzpatrick stattfand.29

Weitere Limitationen ergeben sich durch Bildartefakte, welche die korrekte Diagnosestellung empfindlich stören können. Wir konnten ein entsprechendes Störpotenzial für Hautmarkierungen, eingeblendete Lineale sowie für dunkle Rand-Vignettierungen in dermatoskopischen Aufnahmen zeigen.25, 26, 30

Fazit

In Deutschland ist aufgrund der Gesetzeslage ein vollständig autonomes diagnostisches KI-System momentan nicht vorstellbar. Trotz der gut belegten hohen diagnostischen Treffsicherheit neuronaler Netzwerke verbleibt daher die Verantwortung für die endgültige Diagnose und Therapieentscheidung bei den behandelnden Ärzt:innen.

Abb. 2: Ganzkörperfotografie mit Pigmentläsionen in Mosaikansicht, Dermatoskopie und Malignitätsscore des neuronalen Netzwerkes mit Markierung eines superfiziell spreitenden Melanoms

Aus aktueller Sicht scheinen einerseits die Chancen einer Zusammenarbeit „Mensch mit Maschine“ durch eine erhöhte Anzahl korrekter Diagnosen zu überwiegen. Dies trifft insbesondere für weniger erfahrene oder nichtdermatologisch spezialisierte Ärzt:innen zu. Andererseits ist es wichtig, die zahlreichen Limitationen zu (er)kennen und deren zukünftige Aufarbeitung im Blick zu behalten. Eine Arbeitsentlastung von Dermatolog:innen darf erst dann erwartet werden, wenn KI-Systeme auch Ganzkörperfotografien mit hoher diagnostischer Trefferquote analysieren können. Aktuelle Arbeiten zeigen, dass wir von dieser Vision allerdings noch ein gehöriges Stück entfernt sind.31