AI BENCHY
Your ad here

#52

Grok 4.20 Beta

X AI ยท Releasedatum: 2026-03-12 ยท x-ai/grok-4.20-beta::none

Gem. score

4.4

Kosten per resultaat

2.214

Consistentie

9.1

Totale kosten

$0.089

Correcte tests

Foute tests: 12

Slaagpercentage per poging: 33.3%

Instabiele tests

2

Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).

Responstijd (gem.)

1.22s

Responstijd (max): 6.48s

Responstijd (totaal): 19.53s

Grafieken

Kies eerst het eerste model en klik daarna op een tweede model om een zij-aan-zijpagina te openen.

Totaal aantal uitvoer-tokens

Gem. score vs Totaal aantal uitvoer-tokens

Snelle vergelijking

Categorie-uitsplitsing

Categorie Gem. score Consistentie Correcte tests
Anti-AI-trucs 3.3 7.9
Gecombineerd 10.0 10.0
Gegevensparsering en extractie 9.9 10.0
Domeinspecifiek 10.0 10.0
Algemene intelligentie 5.0 10.0
Instructies opvolgen 4.5 10.0
Puzzeloplossing 4.0 7.2
Toolaanroepen 10.0 10.0

Vergeleken modellen