Modern Talking: Sprachsynthese mit KI-Neuroprothesen

Worum geht es?

Aus technischer Sicht betrachtet ist das menschliche Gehirn ist ein äußerst beeindruckendes Decoder-Encoder-Modell. Dabei müssen sämtliche Sinneseindrücke aus dem entsprechenden Übertragungsmedium in elektrische Signale umgewandelt werden („Encoding“). Im motorischen Umkehrprozess wird jene physioelektrische Aktivität, die durch unsere Bewegungsabsichten entsteht, in Motorik umgewandelt („Decoding“). Für diese Konvertierungen sind neuronale Pfade und motorische Organe verantwortlich. So werden Schallwellen über das Ohr je nach Frequenz und Amplitude in entsprechende elektrische Signale „kodiert“, wobei unsere Gedanken beim Sprechen über die Sprechorgane wieder zurück in Schallwellen „dekodiert“ werden müssen. Wenn Schäden an genau diesen Umwandlungspfaden entstehen, verlieren Betroffene die gesamte Funktion, obwohl keine Pathologie am Gehirn selbst vorliegt. Zum Bespiel bedeutet eine Lähmung der Sprechorgane zwar eine Störung des Sprechens, aber noch keinen automatischen Verlust der Sprache, die ja vollständig im Gehirn gebildet wird.


„Die Methoden stecken zwar noch in den Kinderschuhen, könnten nach weiteren Technologiesprüngen jedoch die Sprachsynthese revolutionieren.“

Martin Baumgartner, MSc, AIT Austrian Institute of Technology


Einer Forschungsgruppe um Jerry Tang ist es nun gelungen, genau jenen Ausfall der „Dekodierung“ (sprich der Umwandlung von Gedanken zu Schallwellen) mit künstlicher Intelligenz (KI) zu kompensieren. Ein „Deep learning“-Modell konnte mittels nichtinvasiver funktioneller Magnetresonanztomografie (fMRI) gemessene Gehirnaktivität in verständliche auditorische Signale umwandeln und dadurch kontinuierliche Sprache nur anhand von Gedanken rekonstruieren. Ähnliche Neuroprothesen konnten bisher nur einen kleinen, eindeutig vordefinierten Wortschatz gewissen Erregungsmustern zuordnen und waren daher in ihrer Funktion stark eingeschränkt. Bellier et al. ist es in einer weiteren unabhängigen Studie sogar gelungen, mit ähnlichen KI-gestützten Methoden ganze Lieder zu rekonstruieren. Musik ist allerdings wesentlich komplexer als reine Sprache, was den Einsatz invasiver intrakranieller Elektroden erfordert hat, die im klinischen Alltag wesentlich unpraktikabler sind.

Warum ist es wichtig?

Der Verlust der Fähigkeit zu sprechen manifestiert sich wegen der besonders drastischen Auswirkungen auf den sozialen und beruflichen Alltag häufig in einem hohen Leidensdruck der Betroffenen. Vor allem Emotionen drücken wir häufig durch Sprache aus, wobei Tonlagen, Betonungen, Lautstärke und Geschwindigkeit in Ausweichmethoden oft nicht ausreichend übertragbar sind. Die Information darüber ist allerdings nicht verloren, sondern findet sich in Stimuli im Gehirn, die von den beschriebenen KI-gestützten Neuroprothesen in Sprache übersetzt werden kann. Diese Modelle könnten in der Zukunft anhand von allfällig vorhandenen Aufzeichnungen möglicherweise auch personalisiert werden, um die Sprache authentisch an die natürliche Stimme von Betroffenen anzupassen. Die Methoden stecken zwar noch in den Kinderschuhen, könnten nach weiteren Technologiesprüngen jedoch die Sprachsynthese revolutionieren und den Patient:innen wieder ihre eigene Stimme zurückgeben.

Die zunehmenden Aktivitäten einer Reihe von jungen Unternehmen, nicht zuletzt der kürzlich in den Medien berichtete erstmalige Einsatz des „Brain-computer interface“-Implantates von Neuralink, deuten darauf hin, dass solche Technologiesprünge in naher Zukunft zu erwarten sind.