Interview

Wie fair und gendergerecht ist sie?

ARZT & PRAXIS: Herr Professor Kittler, was ist und welche Bereiche umfasst KI?
Kittler: Der Begriff „künstliche Intelligenz“ ist sehr unscharf und wird derzeit für alles Mögliche verwendet – das wird auch immer wieder kritisiert. Sinnvoll ist die Verwendung des Begriffs KI für mathematische oder statistische Modelle, die mithilfe von Algorithmen Aufgaben lösen, die normalerweise Menschen vorbehalten sind. Wir reden hier von Aufgaben, die menschliche Intelligenz erfordern, wie Sprache erkennen und generieren, Bilder beschreiben oder Schach spielen. Werden sie von Maschinen übernommen, sprechen wir zu Recht von künstlicher Intelligenz.
Dabei werden die Grenzen dessen, was KI kann und was bislang dem Menschen vorbehalten war, Jahr für Jahr weiter ausgeweitet. Schachspielen wurde z. B. lange als etwas gesehen, was nur von Menschen wirklich gut gemeistert werden kann. Heute betrachten wir es dagegen als eine Aufgabe, die von einer Maschine, einem Computer, einfacher und besser beherrscht wird.

Spracherkennung und Sprachgenerierung sind spätestens seit ChatGPT in aller Munde. Wie funktionieren solche Sprachmodelle?
Unsere Sprache ist inhaltsreich, semantisch und syntaktisch. Ein Satz besteht nicht nur aus einzelnen Wörtern, sondern die Wörter ergeben auch Sinn, und dieser Sinn ergibt sich aus der sinnvollen Zusammenstellung und Reihenfolge der Wörter. Anders gesagt: Wenn man einen Satz generiert, aber ein Wort darin auslässt, so können wir Menschen das fehlende Wort zumeist aus dem Kontext der anderen Wörter, d. h. aus dem umgebenden Inhalt, ergänzen.
Das Verständnis der Sprache lässt sich also daran erkennen, ob ein fehlendes Wort korrekt vorhergesagt werden kann.
So werden – vereinfacht gesagt – auch Sprachmodelle, die sogenannten Word Embeddings, trainiert: Der Maschine werden Sätze mit fehlenden Wörtern präsentiert, und sie versucht, diese Lücke mit dem richtigen Wort zu füllen. Wird das richtige Wort gefunden, erhält es einen gewissen Zahlenwert, und dieser Wert bestimmt wiederum, wie das Wort im Kontext mit anderen Wörtern aufgestellt ist. Dadurch ergeben sich nicht nur für Wörter, sondern auch für Phrasen Zahlenwerte, die dann zur Prädiktion fehlender Wörter genutzt werden.
Anhand von bereits bestehenden Texten aus Büchern, Magazinen, Zeitungen oder dem Internet kann man auf diese Weise ein Modell trainieren, das die Wörter richtig vorhersagt.
Und siehe da: Wenn das Modell die Wörter mehr oder weniger richtig vorhersagen kann, versteht es auch den Inhalt der Sprache. Das ist genau das, was wir erleben, wenn wir mit ChatGPT oder anderen Chatbots kommunizieren. Fazit: vorhersagen = verstehen und damit auch generieren.

Welche Auswirkungen haben in Sprachmodellen versteckte gesellschaftliche Stereotype?
Sprache ist Mustererkennung, und die Muster werden aus einem Korpus an Trainingsdaten erlernt. Folglich werden alle in den Trainingsdaten enthaltenen Konzepte mitgelernt. Jetzt ist unsere Welt nun einmal nicht „gerecht“. So kommen beispielsweise Männer in vielen Bereichen – sowohl in Wort als auch Bild – viel öfter als Frauen vor, wodurch die Wahrnehmung dieser Modelle teilweise verzerrt wird. Weiters werden Männer und Frauen in Texten oft mit gewissen Berufen in Verbindung gebracht, so wie das Mann-Sein und das Frau-Sein generell mit gewissen Attributen assoziiert wird. All das – die Verzerrungen und Vorurteile, die wir als Menschheit innerhalb von Jahrzehnten und Jahrhunderten aufgezeichnet haben – wird von den Sprachmodellen mitgelernt und übernommen. Man kann das natürlich auch dazu verwenden, Verzerrungen in unserer Gesellschaft, die sich in der Sprache äußern, aufzudecken.
Was bedeutet das nun konkret für Sprachmodelle? Ein einfaches Beispiel ist der Bias in Bezug auf Geschlecht und Beruf. Es gibt gewisse Berufe, die traditionell eher Frauen zugeschrieben wurden, wie z. B. Krankenschwester, und solche, die eher Männern zugeschrieben wurden, wie z. B. Pilot. Natürlich ändert sich das mit der Zeit, aber im Trainingsdatensatz oder Korpus sind diese Assoziationen klar vorhanden. Daher entsteht zwischen männlichem Geschlecht und dem Wort „Pilot“ eine stärkere Verbindung als zwischen weiblichem Geschlecht und „Pilot“. In der für Word Embeddings typischen Word-to-Vector-Darstellung bedeutet das, dass der Abstand zwischen Pilot und Mann kleiner ist als zwischen Pilot und Frau, und das Sprachmodell daher den Beruf des Piloten eher einem Mann zuordnet. Neben dem Gender-Bias gibt es natürlich noch andere Verzerrungen, z. B. in Bezug auf Ethnien oder Alter. Generell spiegeln sich alle im Korpus enthaltenen gesellschaftlichen Stereotype in der Maschine wider.

Können wir Verzerrungen vermeiden, indem bestimmte Informationen wie z. B. Gender oder Alter einfach weggelassen werden?
Das funktioniert leider nicht, weil diese Information über Umwege schließlich doch wieder mit hereinspielt. Ein Beispiel: Man führt eine Umfrage durch und entscheidet sich, den sozialen Status oder das Einkommen nicht zu berücksichtigen, weil das „unfair“ ist.
Über andere Daten wie z. B. die Wohnadresse (Favoriten vs. Innere Stadt) ist der soziale Status dann aber doch wieder mit dabei, obwohl man genau das vermeiden wollte. Das Problem daran ist, dass man sich der Verzerrung vielleicht gar nicht bewusst ist, weil man meint, den sozialen Status ausgeklammert zu haben.

Kommen wir zur visuellen Wahrnehmung bzw. Bilderkennung durch KI. Gibt es hier Beispiele für Fehler/Benachteiligung durch Stereotype?
Das bekannteste Beispiel ist die Gesichtserkennung, die bei Frauen weniger gut funktioniert als bei Männern – und bei Frauen mit dunkler Hautfarbe am schlechtesten. Der Grund dafür ist, dass Frauen mit dunkler Hautfarbe im Korpus (z. B. Medien, Internet) weniger häufig als z. B. weiße Männer abgebildet sind. Stehen dem Modell weniger Beispiele zur Verfügung, kann es weniger gut lernen. Die Ungerechtigkeit oder Benachteiligung durch die KI geht in diesem Fall auf inadäquate Repräsentation zurück.

Benachteiligung durch inadäquate Repräsentation spielt auch in der Diagnose pigmentierter Hautläsionen sowie generell in der Diagnose von Hauterkrankungen eine Rolle …
Richtig. Die Abbildungen in medizinischen Lehrbüchern spiegeln in gewisser Weise den Prozentsatz der verschiedenen Ethnien in unserer Bevölkerung wider, der sich aber laufend verschiebt. Als Ärzt:innen müssen wir alle Bevölkerungsgruppen behandeln, darunter auch Menschen mit dunkler Haut, die in herkömmlichen Lehrbüchern unterrepräsentiert sind. Das stellt für uns Ärzt:innen mitunter eine Herausforderung dar. Insofern wäre es gut, wenn wir in Lehrbüchern oder auf Online-Lernplattformen mehr Beispiele von Hauterkrankungen auf dunkler Haut hätten, sowohl für das menschliche Lernen als auch für das Training von KI.
Tatsache ist aber auch, dass manche Erkrankungen bei bestimmten Ethnien häufiger oder seltener vorkommen. Das ist nicht ungerecht, sondern eine wertvolle Information, die nicht verloren gehen darf. So macht es beispielsweise einen Unterschied, ob man ein Hautkrebs-Screening in einer dunkel- oder hellhäutigen Population durchführt. Die Ethnie – eine zugegeben sensible Information – nicht zu berücksichtigen wäre in diesem Fall ein schwerer Fehler, der letztlich für alle nachteilig wäre. Es gibt also auch an die Hautfarbe oder Ethnie angeheftete Information, die in Bezug auf das Ziel – in diesem Beispiel Hautkrebs-Früherkennung – nützlich und daher abzubilden ist.

Abschließend: Wie könnte man künftig Fairness bei KI-Anwendungen sicherstellen?
Die einfachste Maßnahme wäre die Verwendung repräsentativer Trainingsdaten für das Training von KI-Modellen. Das bedeutet, dass z. B. alle für eine bestimmte Fragestellung relevanten Bevölkerungsgruppen im Trainingsset abgebildet sein sollten. Da das eher unrealistisch ist, muss bei Bedarf nachgeschärft werden. Über „Red Teaming“ – darunter versteht man z. B. das Stellen von Fangfragen an Sprachmodelle, um Fehler zu provozieren – werden Ungerechtigkeiten aufgedeckt, um diese dann im Nachhinein auszubessern.
Eine faire KI zu entwickeln gelingt wahrscheinlich sogar eher als faire Menschen. Und Menschen sind ja nun einmal die Ingenieur:innen der KI. Ab einem gewissen Alter neigen wir zu vorgefassten Meinungen, halten uns an Daumenregeln fest – auch, wenn diese in einer sich immer schneller verändernden Welt manchmal nicht mehr funktionieren.
Menschen lassen sich nicht so einfach verändern/manipulieren wie ein Algorithmus; das mag ein Vorteil und manchmal ein Nachteil sein – ist aber jedenfalls auch ein zutiefst menschlicher Zug.

Vielen Dank für das Gespräch!