KI in Balance: Wie ein 60 Jahre alter Mathe-Trick Sprachmodelle stabilisiert
- 2. März
- 3 Min. Lesezeit
Aktualisiert: 3. März
Wer einmal einen Turm gebaut hat, weiß: Je mehr Bausteine er übereinander stapelt, desto wackeliger wird die Angelegenheit – bis der Turm irgendwann zusammenfällt.
Genau dieses Problem hatten KI-Forscher bislang beim Training sehr großer Sprachmodelle. Das chinesische KI-Unternehmen DeepSeek hat jetzt eine Lösung entwickelt: „mHC“ (Manifold-Constrained Hyper-Connections) soll KI-Modelle stabiler machen. Der Clou: DeepSeek nutzt dazu eine mathematische Methode aus den 1960er-Jahren.
Wenn KI-Modelle aus dem Gleichgewicht geraten
Moderne KI-Systeme wie ChatGPT basieren auf der sogenannten Transformer-Architektur. Diese Modelle bestehen aus vielen aufeinander gestapelten Schichten – ähnlich wie Stockwerke in einem Hochhaus. Informationen fließen von unten nach oben durch alle Ebenen.
Seit Jahren nutzen Entwickler dabei einen Trick namens „Residual Connection" (Direktverbindung). Dieser sorgt dafür, dass Informationen nicht nur von Schicht zu Schicht weitergegeben werden, sondern auch direkt durchgeleitet werden können – wie ein Aufzug im Hochhaus, der mehrere Stockwerke überspringt.
Das Problem: Einige Forscher erweiterten diese Technik, indem sie nicht nur einen, sondern gleich vier parallele „Aufzüge" einbauten. Diese sogenannten Hyper-Connections sollten den Informationsfluss verbessern. Doch bei sehr großen Modellen führte das zu Instabilität. Signale wurden zu stark verstärkt oder zu schwach – das Training brach zusammen.
Die Lösung: Eine alte Mathe-Formel macht KI stabil
DeepSeek fand eine überraschend elegante Lösung: Sie zwingen die vier parallelen Informationsströme in eine mathematische Form, die automatisch für Gleichgewicht sorgt. Die Technik heißt „Manifold-Constrained Hyper-Connections" – kurz mHC.
Das Herzstück ist eine Methode namens Sinkhorn-Knopp-Algorithmus, entwickelt 1967 von den Mathematikern Richard Sinkhorn und Paul Knopp. Der Algorithmus sorgt dafür, dass die vier Informationskanäle immer ausgeglichen bleiben – wie eine Waage, die sich automatisch ausbalanciert.
So funktioniert der Algorithmus
Wir bleiben beim Aufzug-Beispiel. Zwischen jedem Stockwerk gibt es vier Aufzüge, die Informationen nach oben und unten transportieren. Der Algorithmus wiederum steuert die Aufzüge:
1. Er misst, wie viele Informationen in jedem Aufzug sind.
2. Er verteilt die Passagiere (Daten) so um, dass in jedem Aufzug exakt gleich viel transportiert wird.
3. Er wiederholt das 20-mal, bis die Auslastung perfekt ausbalanciert ist.
Oder mathematisch ausgedrückt: Die Summe jeder Zeile und jeder Spalte in der Informationsmatrix ergibt immer 1. Fachleute nennen das eine „doppelt stochastische Matrix" – aber im Grunde bedeutet es nur: Alle vier Aufzüge transportieren immer gleich viel, egal wie viele Stockwerke das Hochhaus hat.
Das Ergebnis: Kein Aufzug ist überlastet, keiner fährt leer – perfekter Informationsfluss durchs ganze Gebäude!
Der Praxistest
DeepSeek testete die mHC-Methode an Modellen mit 3 Milliarden, 9 Milliarden und 27 Milliarden Parametern – also an kleinen bis mittelgroßen KI-Systemen.
Die Verbesserungen:
7,2 Prozentpunkte bessere Leistung bei komplexen Denkaufgaben (BBH-Benchmark)
7,1 Prozentpunkte mehr Genauigkeit bei Mathe-Problemen (GSM8K)
Deutlich stabileres Training – keine Signalexplosionen mehr (vorher: bis zu 3000-fache Verstärkung)
Nur 6,7 Prozent mehr Trainingszeit trotz besserer Ergebnisse
Die Technik funktioniert auch bei kleineren Modellen. Das heißt, Unternehmen brauchen keine riesigen Rechenzentren, um davon zu profitieren. Ein 3-Milliarden-Parameter-Modell mit mHC kann besser arbeiten als ein größeres Modell ohne diese Technik.
KI wird zuverlässiger und günstiger
Die Entwicklung zeigt einen wichtigen Trend: KI-Fortschritt kommt nicht nur durch größere Modelle und mehr Rechenleistung. Clevere mathematische Tricks können genauso viel bewirken, und sind dabei oft kostengünstiger.
DeepSeek plant, mHC in den kommenden Modellen DeepSeek V4 oder R2 einzusetzen. Ob andere Anbieter nachziehen werden, bleibt abzuwarten.
Glossar
Doppelt stochastische Matrix: Eine Matrix (Tabelle mit Zahlen), bei der jede Zeile und jede Spalte die Summe 1 ergibt. Sorgt für automatisches Gleichgewicht bei Berechnungen.
Hyper-Connection: Erweiterte Form von Residual Connection, bei der Informationen über mehrere parallele Kanäle fließen statt nur über einen.
mHC (Manifold-Constrained Hyper-Connections): Von DeepSeek entwickelte Technik, die Hyper-Connections durch mathematische Beschränkungen stabilisiert. Nutzt den Sinkhorn-Knopp-Algorithmus, um Informationsflüsse auszubalancieren.
Parameter: Einstellbare Werte in einem KI-Modell. Je mehr Parameter, desto komplexer kann das Modell Zusammenhänge lernen.
Residual Connection: Technik in neuronalen Netzen, bei der Informationen direkt von einer Schicht zur nächsten weitergeleitet werden, ohne durch alle Berechnungen zu müssen. Verhindert, dass Informationen auf dem Weg verloren gehen.
Sinkhorn-Knopp-Algorithmus: Mathematisches Verfahren aus dem Jahr 1967, das eine Matrix so verändert, dass alle Zeilen- und Spaltensummen gleich sind. Wird in mHC genutzt, um Informationsflüsse auszubalancieren.
Transformer-Architektur: Grundlegendes Bauschema moderner KI-Sprachmodelle wie ChatGPT. Besteht aus vielen aufeinander aufbauenden Schichten, die Informationen verarbeiten.



