#47
X AI · Veröffentlichung: 2026-03-12 · x-ai/grok-4.20-multi-agent-beta::medium
Instabile Tests
6
Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).
Diagramme
Wähle zuerst das erste Modell und klicke dann ein zweites Modell, um eine Seite im direkten Vergleich zu öffnen.
Ø-Score vs Gesamtkosten
Antwortzeit (Durchschnitt)
Ø-Score vs Antwortzeit (Durchschnitt)
Gesamte Ausgabe-Token
Ø-Score vs Gesamte Ausgabe-Token
Schnellvergleich
Grok 4.20 Multi-Agent BetamediumvsSeed-2.0-LitenoneGrok 4.20 Multi-Agent BetamediumvsQwen3.5-122B-A10BnoneGrok 4.20 Multi-Agent BetamediumvsQwen3.5-35B-A3BnoneGrok 4.20 Multi-Agent Betamediumvsgpt-oss-120bmediumKostenlos verfügbarGrok 4.20 Multi-Agent BetamediumvsMiniMax M2.5mediumGrok 4.20 Multi-Agent BetamediumvsGemini 3 Flash PreviewmediumGrok 4.20 Multi-Agent BetamediumvsGemini 3.1 Pro PreviewmediumGrok 4.20 Multi-Agent BetamediumvsStep 3.5 FlashmediumKostenlos verfügbar
Kategorieaufschlüsselung
| Kategorie | Ø-Score | Konsistenz | Korrekte Tests |
|---|---|---|---|
| Anti-KI-Tricks | 4.0 | 4.4 | |
| Kombiniert | 10.0 | 10.0 | |
| Datenanalyse und -extraktion | 9.9 | 10.0 | |
| Domänenspezifisch | 10.0 | 7.2 | |
| Allgemeine Intelligenz | 4.0 | 2.8 | |
| Befolgung von Anweisungen | 9.0 | 10.0 | |
| Rätsellösen | 6.3 | 5.1 | |
| Werkzeugaufrufe | 10.0 | 10.0 |