AI BENCHY Compare

Modele comparate

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-05-26

Metrică	Grok 4.20 Beta Grok 4.20 Beta medium Lansare: 2026-03-12	Grok 4.1 Fast Grok 4.1 Fast medium Lansare: 2025-11-19	Hunter Alpha Hunter Alpha medium Lansare: 2026-03-11

Metrică	Grok 4.20 Beta Grok 4.20 Beta medium Lansare: 2026-03-12	Grok 4.1 Fast Grok 4.1 Fast medium Lansare: 2025-11-19	Hunter Alpha Hunter Alpha medium Lansare: 2026-03-11
Scor	8.5	6.5	6.7
Rang	#14	#88	#76
Fiabilitate	N/D	10.0	N/D
Consistență	9.5	7.3	7.4
Teste corecte
Rată de trecere pe încercare	81.5%	61.4%	64.8%
Teste instabile	1	6	6
Rulări totale	128	133	90
Cost per rezultat	8.557	0.926	0.000
Cost total	$1.198	$0.084	$0.000
Preț de intrare	$0.000 / 1M	$0.000 / 1M	$0.000 / 1M
Preț de ieșire	$0.000 / 1M	$0.000 / 1M	$0.000 / 1M
Tokenuri de ieșire	4,915	3,298	6,506
Tokenuri de raționament	177,787	139,122	24,809
Timp de răspuns (mediu)	9.75s	23.85s	10.33s
Timp de răspuns (maxim)	31.36s	121.79s	30.53s
Timp de răspuns (total)	175.48s	286.16s	175.58s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Grok 4.20 Beta	8.7	7.9	91.7%	1		3.16s	268	7,583
Grok 4.1 Fast	8.7	7.9	91.7%	1		3.81s	108	4,741
Hunter Alpha	7.3	5.8	83.3%	2		4.75s	479	1,103

Programare	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Grok 4.20 Beta	10.0	10.0	100.0%	0		31.36s	81	3,987
Grok 4.1 Fast	2.3	1.1	33.3%	1		23.58s	821	6,703
Hunter Alpha	3.0	10.0	0.0%	0		0ms	0	0

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Grok 4.20 Beta	10.0	10.0	100.0%	0		20.93s	227	12,212
Grok 4.1 Fast	10.0	10.0	100.0%	0		37.64s	261	12,272
Hunter Alpha	4.7	1.6	66.7%	1		30.53s	792	3,456

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Grok 4.20 Beta	10.0	10.0	100.0%	0		4.01s	180	5,281
Grok 4.1 Fast	10.0	10.0	100.0%	0		6.63s	180	5,409
Hunter Alpha	10.0	10.0	100.0%	0		23.16s	1,488	8,017

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Grok 4.20 Beta	5.3	10.0	33.3%	0		21.33s	251	40,255
Grok 4.1 Fast	5.8	4.4	66.7%	2		121.79s	11	37,657
Hunter Alpha	3.0	10.0	0.0%	0		10.52s	892	2,406

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Grok 4.20 Beta	10.0	10.0	100.0%	0		5.78s	72	3,440
Grok 4.1 Fast	4.2	9.9	0.0%	0		16.25s	127	3,456
Hunter Alpha	7.0	3.7	66.7%	1		6.44s	116	260

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Grok 4.20 Beta	9.8	10.0	100.0%	0		4.89s	703	67,771
Grok 4.1 Fast	6.5	10.0	50.0%	0		4.63s	662	21,680
Hunter Alpha	9.9	10.0	100.0%	0		4.18s	208	465

Rezolvare de puzzle-uri	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Grok 4.20 Beta	10.0	10.0	100.0%	0		3.52s	2,950	31,874
Grok 4.1 Fast	5.3	7.2	44.4%	1		7.40s	853	30,338
Hunter Alpha	6.1	4.7	66.7%	2		5.35s	2,223	8,198

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Grok 4.20 Beta	3.0	10.0	0.0%	0		12.39s	183	5,384
Grok 4.1 Fast	2.8	1.6	33.3%	1		27.71s	260	11,485
Hunter Alpha	10.0	10.0	100.0%	0		17.33s	308	904

Cultură generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Grok 4.20 Beta	-	-	-	-	-	-	-	-
Grok 4.1 Fast	3.0	10.0	0.0%	0		25.52s	15	5,381
Hunter Alpha	-	-	-	-	-	-	-	-

Comparație rapidă

Schimbă perechea de comparație

Claude Opus 4.7mediumvsGPT-5.5low GPT-5.4mediumvsQwen3.7 Maxnone Gemini 3 Flash PreviewnonevsGrok Build 0.1medium DeepSeek V4 FlashhighDisponibil gratuitvsMiMo-V2.5-Promedium Gemini 3.1 Flash Lite PreviewlowvsQwen3.5-Flashmedium Gemini 3.1 Flash LiteminimalvsKimi K2.5medium GPT-5.3 ChatnonevsMiMo-V2.5medium Gemini 3.1 Flash Lite PreviewlowvsMiMo-V2.5-Promedium Gemini 3.1 Flash LitelowvsGLM 5.1medium gpt-oss-120bmediumDisponibil gratuitvsQwen3.5-Flashnone Qwen3.7 MaxnonevsGLM 5 Turbomedium Gemini 3 Flash PreviewnonevsQwen3.6 Flashmedium