top of page
Strip.png

Exklusive KI-Community,  8 Präsenz-Events mit führenden KI-Experten,  Kuratiertes KI-Wissen on-demand...

Intensives 48-Stunden-Training,  Praxisnahes Lernen mit Experten,  Zertifizierung & Zugang zu Premium-Tools...

Mind Captioning: Gedankenlesen mit KI

  • Tanja Schmitt
  • 25. Nov. 2025
  • 3 Min. Lesezeit

Aktualisiert: 26. Nov. 2025

Ich schaue aus dem Fenster und da steht ein Apfelbaum. Die Äpfel sehen ziemlich lecker aus und ich beiße im Geiste in einen hinein. Kurze Zeit später ist das, was ich mir gerade so schön vorgestellt habe, als Text zu sehen, übersetzt von einer Maschine. 


Das, was sich ziemlich nach Mentalisten-Nonsens anhört, ist vor Kurzem japanischen Forschern gelungen. Ihre Technologie namens „Mind Captioning” übersetzt Gedanken in Text – und beschreibt präzise, was Menschen sehen oder sich vorstellen. Das ist nicht nur eine Spielerei aus dem Tech-Labor, die zeigt, wie weit KI-Forschung mittlerweile ist, die Technologie könnte Menschen helfen, die ihr Sprechvermögen verloren haben. 


Was Mind Captioning kann


Wissenschaftler um Tomoyasu Horikawa haben eine Methode entwickelt, die Gehirnaktivität in Text verwandelt. Das Team nutzte die funktionelle Magnetresonanztomographie (fMRI), um zu messen, was gerade im Gehirn passiert, während sich sechs Probanden Videos anschauten oder sich an diese erinnerten. Künstliche Intelligenz analysierte anschließend deren Gehirnsignale und generierte daraus Texte. Der Clou: Die Beschreibungen umfassten nicht nur einzelne Wörter, sondern vollständige Sätze. 


Die Trefferquote war beeindruckend. In einem Test mit 100 Kandidaten lag diese bei bei rund 50  Prozent, weit über dem Zufallsniveau von einem Prozent.


Wie Mind Captioning funktioniert


Zunächst trainierten die Forscher ein KI-Modell mit Gehirndaten von Menschen, die Videos anschauten. Parallel dazu sammelten sie die Textbeschreibungen dieser Videos. Das Modell lernte, Muster in der Gehirnaktivität mit semantischen Bedeutungen zu verknüpfen – quasi wie ein Übersetzer, der zwischen zwei Sprachen vermittelt.


Im zweiten Schritt optimierte die KI Textbeschreibungen, indem sie Wörter austauschte und neu kombinierte, bis die Beschreibung optimal zur gemessenen Gehirnaktivität passte. Die Forscher nutzten dafür Sprachmodelle wie DeBERTa und RoBERTa. Das sind KI-Systeme, die auf Milliarden von Texten trainiert wurden und Bedeutungszusammenhänge erkennen.


Entscheidend war, dass die KI keine fertigen Bilddatenbanken oder vorgefertigte Beschreibungen nutzte. Sie generierte die Texte von Grund auf neu, Wort für Wort. Beschreibungen, die tatsächlich das widerspiegelten, was die Versuchspersonen gerade gesehen hatten.


Warum die Reihenfolge der Wörter zählt


Die Reihenfolge der Wörter war entscheidend. Als die Forscher die Wörter in den generierten Sätzen durcheinanderbrachten, sank die Genauigkeit deutlich. Das zeigt: Die KI erfasste nicht nur einzelne Objekte, sondern auch deren Beziehungen zueinander, ein Qualitätsmerkmal echter Sprachverarbeitung.


Überraschend war auch, dass das klassische Sprachnetzwerk im Gehirn für diese Leistung nicht zwingend erforderlich ist. Selbst wenn die Forscher diese Region aus der Analyse ausschlossen, funktionierten die Beschreibungen noch erstaunlich gut. Die Information über komplexe visuelle Zusammenhänge scheint also in anderen Hirnregionen gespeichert zu sein – in Bereichen, die mit visuellem Erkennen und Gedächtnis verbunden sind.


Was die Technik ermöglichen könnte


Die Anwendungsmöglichkeiten sind vielfältig. Menschen mit Aphasie, einer Sprachstörung nach Schlaganfall oder Hirnverletzung, könnten durch solche Systeme wieder kommunizieren. Auch Patienten mit ALS, die ihre motorischen Fähigkeiten verlieren, könnten davon profitieren.


Die Technologie wirft aber auch Fragen auf. Die Forscher konnten sogar Beschreibungen aus einzelnen fMRI-Messungen generieren, also aus einem einzigen Scan. Theoretisch ließen sich somit auch flüchtige Gedanken oder Träume entschlüsseln. Die Studie macht deshalb auch deutlich, dass klare ethische Richtlinien nötig sind, um die Privatsphäre zu schützen.


Für Unternehmen ist diese Entwicklung vorerst wohl weniger relevant. Die Technik erfordert teure fMRI-Scanner und ist weit von einer praktischen Anwendung entfernt. Doch sie zeigt, wohin sich KI entwickelt: weg von simplen Mustern, hin zu komplexen Bedeutungszusammenhängen. Diese Fähigkeit, semantische Information zu verarbeiten und in andere Formen zu übersetzen, wird auch im Geschäftskontext immer wichtiger.


Quelle:


Horikawa, T. (2025). Mind captioning: Evolving descriptive text of mental content from human brain activity. Science Advances, Vol. 11, Issue 45.



Glossar


  • fMRI (funktionelle Magnetresonanztomographie): Bildgebendes Verfahren, das Gehirnaktivität sichtbar macht, indem es den Blutfluss in verschiedenen Hirnregionen misst.

  • Sprachmodell: KI-System, das auf großen Textmengen trainiert wurde und Sprache analysieren, verstehen und generieren kann.

  • DeBERTa/RoBERTa: Spezielle KI-Modelle zur Textverarbeitung, die Bedeutungszusammenhänge besonders gut erfassen können.

  • Aphasie: Sprachstörung, meist nach Schlaganfall, bei der Betroffene Schwierigkeiten haben, Sprache zu verstehen oder zu produzieren.

bottom of page