Alles gleichzeitig: Eine KI, die zuhört, sieht und unterbricht

12. Mai
3 Min. Lesezeit

Sie tippen eine Frage ein. Warten. Die KI antwortet. Sie lesen. Tippen erneut. Warten wieder. Dieses abgehackte Hin und Her gleicht eher einem Briefwechsel als einem echten Gespräch. Genau hier setzen sogenannte Interaktionsmodelle an – eine neue Klasse von KI-Systemen, die in Echtzeit zuhören, sehen und reagieren. Und das Ganze gleichzeitig und eben nicht nacheinander.

Sehen? Aber hallo! Beispiel: Sie „haben Rücken“ und neigen dazu, krumm am Schreibtisch zu verharren, ein Graus für alle Bandscheiben. Also geben Sie der KI die Anweisung, Sie sofort zu ermahnen, falls Sie mal in einer schlechten Haltung dasitzen. Und genau das macht sie dann, zu sehen in einem Video des KI-Startups Thinking Machines Lab.

Oder: Ein Mitarbeiter spricht Hindi. Das Problem: Sie nicht. Die KI übersetzt in Ihre Sprache. Eine etwas andere Art von Simultanübersetzung: Sie haben einen Mitarbeiter, der immer zu spät kommt, was Sie tierisch aufregt. Das können Sie ihm natürlich nicht so ins Gesicht sagen. Also geben Sie der KI die Anweisung, Ihre in Rage gesprochenen Worte in eine professionelle HR-Sprache zu übersetzen. Aus Ihrem wütenden „Hallo Alex, Dein Zuspätkommen nervt mich” wird dann ein sanftes „Ich würde mich freuen, gemeinsam mit Dir auszuloten, wie Du Deine Pünktlichkeit und Dein Engagement am Morgen verbessern könntest.“

Warum heutige KI-Systeme wie E-Mails funktionieren

Aktuelle KI-Werkzeuge arbeiten rundenbasiert. Der Mensch gibt etwas ein, das System verarbeitet und liefert eine Antwort. Währenddessen nimmt es nichts wahr. Es registriert keinen Tonfall, kein Zögern, keine Geste. Stellen Sie sich vor, Sie besprechen ein wichtiges Projekt mit einem Kollegen – aber jeder spricht nur, wenn der andere komplett fertig ist. Kein Nicken, kein „Moment, das verstehe ich nicht". Genau so arbeiten die meisten KI-Systeme heute.

Dass sich das ändern soll, zeigen gleich zwei Entwicklungen: OpenAI stellte am 8. Mai 2026 drei neue Echtzeit-Audio-Modelle vor, darunter GPT-Realtime-2 für Gespräche zwischen Mensch und Maschine. Nur drei Tage später präsentierte Thinking Machines Lab seinen eigenen Ansatz – und geht dabei noch einen Schritt weiter.

Was Interaktionsmodelle anders machen

Etwas pikant: Thinking Machines Lab wurde von der ehemaligen OpenAI-CTO Mira Murati gegründet. Innerhalb kürzester Zeit hat das Startup über zwölf Milliarden US-Dollar eingesammelt – ohne ein fertiges Produkt vorweisen zu können. Jetzt zeigt das Unternehmen erstmals, woran es gerade arbeitet: ein Interaktionsmodell, das Audio, Video und Text parallel verarbeitet – in Abschnitten von nur 200 Millisekunden.

Drei Eigenschaften machen das möglich:

- Mikro-Takte statt starrer Runden: Das System verarbeitet alle 200 Millisekunden neue Eingaben und erzeugt parallel Ausgaben. Es wartet nicht, bis jemand fertig gesprochen hat.

- Die KI kann unterbrechen: Erkennt das Modell einen Fehler, weist es sofort darauf hin – auch mitten im Satz. Ebenso übersetzt es live, während noch jemand spricht.

- Zwei-Ebenen-Architektur: Ein schnelles Modell hält den Dialog aufrecht. Braucht eine Aufgabe tiefere Analyse, delegiert es an ein Hintergrundmodell – ohne das Gespräch zu unterbrechen.

Das Ergebnis laut Benchmark: eine Antwortzeit von 0,4 Sekunden. Zum Vergleich: In gängigen Sprach-APIs für Kundensupport liegt die Verarbeitungspause bei ein bis zwei Sekunden. Die schnellsten Konkurrenzmodelle schaffen etwa 0,6 Sekunden.

Ein Branchentrend mit praktischen Folgen

Thinking Machines Lab ist nicht allein. OpenAIs neues GPT-Realtime-2 ermöglicht ebenfalls Echtzeit-Gespräche per API. Ein separates Übersetzungsmodell (GPT-Realtime-Translate) beherrscht über 70 Eingangssprachen, übersetzt in 13 Zielsprachen und wird laut OpenAI bereits von der Deutschen Telekom im Kundensupport getestet. Die Branche bewegt sich klar in Richtung KI-Systeme, die sich an menschliche Kommunikation anpassen – nicht umgekehrt.

Für mittelständische Unternehmen ist das noch nicht direkt einsetzbar. Thinking Machines Lab hat bislang nur Demonstrationsvideos veröffentlicht. Eine eingeschränkte Forschungsvorschau soll in den kommenden Monaten folgen. Doch die Richtung ist eindeutig: Statt mühsam Prompts zu formulieren, könnten Mitarbeiter künftig mit KI so arbeiten wie mit einem Kollegen am Nebentisch. Ein kurzer Einwurf genügt und sofort kommt eine Rückfrage.

Denken Sie an eine Qualitätskontrolle per Kamera, bei der das System sofort auf Abweichungen hinweist. Oder an Besprechungen, in denen die KI live mitprotokolliert und bei Bedarf Fakten einwirft. Wer heute schon versteht, wie diese Systeme funktionieren, trifft morgen bessere Entscheidungen darüber, welche Werkzeuge ins eigene Unternehmen passen.

Glossar

API (Application Programming Interface): Eine Schnittstelle, über die Programme miteinander kommunizieren. Entwickler nutzen sie, um KI-Funktionen in eigene Anwendungen einzubauen.
Benchmark: Ein standardisierter Test, mit dem die Leistung von KI-Modellen vergleichbar gemessen wird.
Interaktionsmodell: Ein KI-System, das Eingaben in Echtzeit verarbeitet und gleichzeitig antwortet – statt auf vollständige Eingaben zu warten.
Mikro-Takte (Micro-Turns): Sehr kurze Verarbeitungsintervalle (z. B. 200 Millisekunden), in denen das System abwechselnd Eingaben aufnimmt und Ausgaben erzeugt.