AI BENCHY Compare

Vergeleken modellen

Benchmarks gegenereerd uit AI BENCHY-testsuites op: 2026-05-26

Metriek	Grok 4.20 Beta Grok 4.20 Beta medium Releasedatum: 2026-03-12	Grok 4.1 Fast Grok 4.1 Fast medium Releasedatum: 2025-11-19	Hunter Alpha Hunter Alpha medium Releasedatum: 2026-03-11

Metriek	Grok 4.20 Beta Grok 4.20 Beta medium Releasedatum: 2026-03-12	Grok 4.1 Fast Grok 4.1 Fast medium Releasedatum: 2025-11-19	Hunter Alpha Hunter Alpha medium Releasedatum: 2026-03-11
Score	8.5	6.5	6.7
Rang	#14	#88	#76
Betrouwbaarheid	n.v.t.	10.0	n.v.t.
Consistentie	9.5	7.3	7.4
Correcte tests
Slaagpercentage per poging	81.5%	61.4%	64.8%
Instabiele tests	1	6	6
Totaal runs	128	133	90
Kosten per resultaat	8.557	0.926	0.000
Totale kosten	$1.198	$0.084	$0.000
Invoerprijs	$0.000 / 1M	$0.000 / 1M	$0.000 / 1M
Uitvoerprijs	$0.000 / 1M	$0.000 / 1M	$0.000 / 1M
Uitvoer-tokens	4,915	3,298	6,506
Redeneer-tokens	177,787	139,122	24,809
Responstijd (gem.)	9.75s	23.85s	10.33s
Responstijd (max)	31.36s	121.79s	30.53s
Responstijd (totaal)	175.48s	286.16s	175.58s

Topmodellen op score

Score vs totale kosten

Responstijd (gem.)

Score vs Responstijd (gem.)

Totaal aantal uitvoer-tokens

Score vs Totaal aantal uitvoer-tokens

Categorie-uitsplitsing

Anti-AI-trucs	Score	Consistentie	Slaagpercentage per poging	Instabiele tests	Correcte tests	Responstijd (gem.)	Uitvoer-tokens	Redeneer-tokens
Grok 4.20 Beta	8.7	7.9	91.7%	1		3.16s	268	7,583
Grok 4.1 Fast	8.7	7.9	91.7%	1		3.81s	108	4,741
Hunter Alpha	7.3	5.8	83.3%	2		4.75s	479	1,103

Programmeren	Score	Consistentie	Slaagpercentage per poging	Instabiele tests	Correcte tests	Responstijd (gem.)	Uitvoer-tokens	Redeneer-tokens
Grok 4.20 Beta	10.0	10.0	100.0%	0		31.36s	81	3,987
Grok 4.1 Fast	2.3	1.1	33.3%	1		23.58s	821	6,703
Hunter Alpha	3.0	10.0	0.0%	0		0ms	0	0

Gecombineerd	Score	Consistentie	Slaagpercentage per poging	Instabiele tests	Correcte tests	Responstijd (gem.)	Uitvoer-tokens	Redeneer-tokens
Grok 4.20 Beta	10.0	10.0	100.0%	0		20.93s	227	12,212
Grok 4.1 Fast	10.0	10.0	100.0%	0		37.64s	261	12,272
Hunter Alpha	4.7	1.6	66.7%	1		30.53s	792	3,456

Gegevensparsering en extractie	Score	Consistentie	Slaagpercentage per poging	Instabiele tests	Correcte tests	Responstijd (gem.)	Uitvoer-tokens	Redeneer-tokens
Grok 4.20 Beta	10.0	10.0	100.0%	0		4.01s	180	5,281
Grok 4.1 Fast	10.0	10.0	100.0%	0		6.63s	180	5,409
Hunter Alpha	10.0	10.0	100.0%	0		23.16s	1,488	8,017

Domeinspecifiek	Score	Consistentie	Slaagpercentage per poging	Instabiele tests	Correcte tests	Responstijd (gem.)	Uitvoer-tokens	Redeneer-tokens
Grok 4.20 Beta	5.3	10.0	33.3%	0		21.33s	251	40,255
Grok 4.1 Fast	5.8	4.4	66.7%	2		121.79s	11	37,657
Hunter Alpha	3.0	10.0	0.0%	0		10.52s	892	2,406

Algemene intelligentie	Score	Consistentie	Slaagpercentage per poging	Instabiele tests	Correcte tests	Responstijd (gem.)	Uitvoer-tokens	Redeneer-tokens
Grok 4.20 Beta	10.0	10.0	100.0%	0		5.78s	72	3,440
Grok 4.1 Fast	4.2	9.9	0.0%	0		16.25s	127	3,456
Hunter Alpha	7.0	3.7	66.7%	1		6.44s	116	260

Instructies opvolgen	Score	Consistentie	Slaagpercentage per poging	Instabiele tests	Correcte tests	Responstijd (gem.)	Uitvoer-tokens	Redeneer-tokens
Grok 4.20 Beta	9.8	10.0	100.0%	0		4.89s	703	67,771
Grok 4.1 Fast	6.5	10.0	50.0%	0		4.63s	662	21,680
Hunter Alpha	9.9	10.0	100.0%	0		4.18s	208	465

Puzzeloplossing	Score	Consistentie	Slaagpercentage per poging	Instabiele tests	Correcte tests	Responstijd (gem.)	Uitvoer-tokens	Redeneer-tokens
Grok 4.20 Beta	10.0	10.0	100.0%	0		3.52s	2,950	31,874
Grok 4.1 Fast	5.3	7.2	44.4%	1		7.40s	853	30,338
Hunter Alpha	6.1	4.7	66.7%	2		5.35s	2,223	8,198

Toolaanroepen	Score	Consistentie	Slaagpercentage per poging	Instabiele tests	Correcte tests	Responstijd (gem.)	Uitvoer-tokens	Redeneer-tokens
Grok 4.20 Beta	3.0	10.0	0.0%	0		12.39s	183	5,384
Grok 4.1 Fast	2.8	1.6	33.3%	1		27.71s	260	11,485
Hunter Alpha	10.0	10.0	100.0%	0		17.33s	308	904

Algemene kennis	Score	Consistentie	Slaagpercentage per poging	Instabiele tests	Correcte tests	Responstijd (gem.)	Uitvoer-tokens	Redeneer-tokens
Grok 4.20 Beta	-	-	-	-	-	-	-	-
Grok 4.1 Fast	3.0	10.0	0.0%	0		25.52s	15	5,381
Hunter Alpha	-	-	-	-	-	-	-	-

Snelle vergelijking

Vergelijkingspaar wisselen

Claude Opus 4.7mediumvsGPT-5.5low GPT-5.4mediumvsQwen3.7 Maxnone Gemini 3 Flash PreviewnonevsGrok Build 0.1medium DeepSeek V4 FlashhighGratis beschikbaarvsMiMo-V2.5-Promedium Gemini 3.1 Flash Lite PreviewlowvsQwen3.5-Flashmedium Gemini 3.1 Flash LiteminimalvsKimi K2.5medium GPT-5.3 ChatnonevsMiMo-V2.5medium Gemini 3.1 Flash Lite PreviewlowvsMiMo-V2.5-Promedium Gemini 3.1 Flash LitelowvsGLM 5.1medium gpt-oss-120bmediumGratis beschikbaarvsQwen3.5-Flashnone Qwen3.7 MaxnonevsGLM 5 Turbomedium Gemini 3 Flash PreviewnonevsQwen3.6 Flashmedium