AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

#47

Grok 4.20 Multi-Agent Beta

X AI · Releasedatum: 2026-03-12 · x-ai/grok-4.20-multi-agent-beta::medium

Kosten per resultaat

97.178

Consistentie

7.1

Totale kosten

$4.859

Correcte tests

Foute tests: 11

Slaagpercentage per poging: 52.1%

Instabiele tests

6

Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).

Responstijd (gem.)

9.08s

Responstijd (max): 35.28s

Responstijd (totaal): 127.09s

Grafieken

Kies eerst het eerste model en klik daarna op een tweede model om een zij-aan-zijpagina te openen.

Totaal aantal uitvoer-tokens

Gem. score vs Totaal aantal uitvoer-tokens

Snelle vergelijking

Categorie-uitsplitsing

Categorie Gem. score Consistentie Correcte tests
Anti-AI-trucs 4.0 4.4
Gecombineerd 10.0 10.0
Gegevensparsering en extractie 9.9 10.0
Domeinspecifiek 10.0 7.2
Algemene intelligentie 4.0 2.8
Instructies opvolgen 9.0 10.0
Puzzeloplossing 6.3 5.1
Toolaanroepen 10.0 10.0

Vergeleken modellen