Parkstraße oder Pleite? Das passiert, wenn KI-Modelle Monopoly spielen
- vor 6 Tagen
- 2 Min. Lesezeit
Neun führende KI-Modelle spielen Monopoly gegeneinander. Das Ergebnis überrascht – und eines der angeblich besten Modelle der Welt scheitert krachend.
Warum ausgerechnet Monopoly?
Standard-Benchmarks prüfen vor allem eines: ob ein Modell einzelne Aufgaben korrekt löst. Aufgabe rein, Antwort raus, fertig. Im echten Leben zählen aber andere Fähigkeiten: Ressourcen verwalten, mehrere Schritte vorausplanen, auf Gegenspieler reagieren. Genau das verlangt Monopoly. Wer Grundstücke kauft, Mieten kalkuliert und Deals verhandelt, muss Konsequenzen über viele Züge hinweg modellieren.
Zwei Sieger, unterschiedliche Strategien
KI-Experte Thomas Molinier wollte es genau wissen. Sein Team ließ neun Spitzenmodelle über 200 Partien gegeneinander antreten: 33.355 Züge, 310.988 Aktionen. Die klaren Sieger: Claude Opus 4.6 mit 63 % Siegquote und GLM 4.7 mit 53 %. Opus blockierte gezielt Gegner und verkaufte Grundstücke an angeschlagene Mitspieler – um sie nach deren Bankrott zurückzuerben. GLM setzte auf aggressive Auktionen mit 93 % Gebotsquote. Zwei völlig verschiedene Strategien, beide erfolgreich.
Der Schock: GPT 5.4 ging in 97 % aller Spiele bankrott. Das Modell formulierte zwar „langfristige Pläne", ignorierte dabei aber die eigene Kassenlage. Mistral Large 3 und Llama 4 Maverick schieden in 100 % der Partien aus. Mistral belegte und entbelegte dieselbe Bahnhofskarte 107 Mal hintereinander – Kosten: 1.177 Dollar Zinsen für exakt nichts.
Worauf es wirklich ankommt
Alle Modelle hielten sich an die Spielregeln. Der entscheidende Unterschied: Starke Modelle verketteten Konsequenzen über mehrere Züge. Schwache Modelle beschrieben Strategie, reagierten aber nur auf den aktuellen Zug.
Falls Sie also beim nächsten Familienabend am Monopoly-Tisch verlieren: Trösten Sie sich damit, dass GPT 5.4 noch deutlich schlechter abschneidet.
Glossar
Benchmark: Ein standardisierter Test, der die Leistung von KI-Modellen misst und vergleichbar macht – ähnlich einem Schultest für Software.
KI-Modell (LLM): Ein „Large Language Model" – ein Computerprogramm, das auf Basis riesiger Textmengen trainiert wurde und Sprache verarbeiten kann. Bekannte Beispiele: ChatGPT, Claude, Gemini.
Mehrstufiges Planen: Die Fähigkeit eines KI-Modells, nicht nur den nächsten Schritt zu berechnen, sondern Ketten von Konsequenzen über mehrere Schritte hinweg zu modellieren.
Quelle
Thomas Molinier (@randomtryidk): „We found out which LLM is the best capitalist" – veröffentlicht auf X (ehemals Twitter). Molinier arbeitet bei Rippletide (rippletide.com).



