AI BENCHY Compare

Modèles comparés

Benchmarks générés à partir des suites de tests AI BENCHY le: 2026-05-26

Métrique	Grok 4.20 Beta Grok 4.20 Beta medium Sortie: 2026-03-12	Grok 4.1 Fast Grok 4.1 Fast medium Sortie: 2025-11-19	Hunter Alpha Hunter Alpha medium Sortie: 2026-03-11

Métrique	Grok 4.20 Beta Grok 4.20 Beta medium Sortie: 2026-03-12	Grok 4.1 Fast Grok 4.1 Fast medium Sortie: 2025-11-19	Hunter Alpha Hunter Alpha medium Sortie: 2026-03-11
Score	8.5	6.5	6.7
Rang	#14	#88	#76
Fiabilité	N/D	10.0	N/D
Cohérence	9.5	7.3	7.4
Tests corrects
Taux de réussite par tentative	81.5%	61.4%	64.8%
Tests instables	1	6	6
Exécutions totales	52	57	52
Coût par résultat	4.505	0.642	0.000
Coût total	$0.631	$0.058	$0.000
Prix d'entrée	$0.000 / 1M	$0.000 / 1M	$0.000 / 1M
Prix de sortie	$0.000 / 1M	$0.000 / 1M	$0.000 / 1M
Jetons de sortie	1,647	2,006	4,682
Jetons de raisonnement	91,565	96,334	17,969
Temps de réponse (moy.)	9.75s	23.85s	10.33s
Temps de réponse (max)	31.36s	121.79s	30.53s
Temps de réponse (total)	175.48s	286.16s	175.58s

Meilleurs modèles par score

Score vs coût total

Temps de réponse (moy.)

Score vs Temps de réponse (moy.)

Total des jetons de sortie

Score vs Total des jetons de sortie

Répartition par catégorie

Astuces anti-IA	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Grok 4.20 Beta	8.7	7.9	91.7%	1		3.16s	268	7,583
Grok 4.1 Fast	8.7	7.9	91.7%	1		3.81s	108	4,741
Hunter Alpha	7.3	5.8	83.3%	2		4.75s	479	1,103

Programmation	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Grok 4.20 Beta	10.0	10.0	100.0%	0		31.36s	81	3,987
Grok 4.1 Fast	2.3	1.1	33.3%	1		23.58s	821	6,703
Hunter Alpha	3.0	10.0	0.0%	0		0ms	0	0

Combiné	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Grok 4.20 Beta	10.0	10.0	100.0%	0		20.93s	227	12,212
Grok 4.1 Fast	10.0	10.0	100.0%	0		37.64s	261	12,272
Hunter Alpha	4.7	1.6	66.7%	1		30.53s	792	3,456

Analyse et extraction des données	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Grok 4.20 Beta	10.0	10.0	100.0%	0		4.01s	180	5,281
Grok 4.1 Fast	10.0	10.0	100.0%	0		6.63s	180	5,409
Hunter Alpha	10.0	10.0	100.0%	0		23.16s	1,488	8,017

Spécifique au domaine	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Grok 4.20 Beta	5.3	10.0	33.3%	0		21.33s	251	40,255
Grok 4.1 Fast	5.8	4.4	66.7%	2		121.79s	11	37,657
Hunter Alpha	3.0	10.0	0.0%	0		10.52s	892	2,406

Intelligence générale	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Grok 4.20 Beta	10.0	10.0	100.0%	0		5.78s	72	3,440
Grok 4.1 Fast	4.2	9.9	0.0%	0		16.25s	127	3,456
Hunter Alpha	7.0	3.7	66.7%	1		6.44s	116	260

Suivi des instructions	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Grok 4.20 Beta	9.8	10.0	100.0%	0		4.89s	57	7,123
Grok 4.1 Fast	6.5	10.0	50.0%	0		4.63s	54	3,326
Hunter Alpha	9.9	10.0	100.0%	0		4.18s	208	465

Résolution d'énigmes	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Grok 4.20 Beta	10.0	10.0	100.0%	0		3.52s	328	6,300
Grok 4.1 Fast	5.3	7.2	44.4%	1		7.40s	169	5,904
Hunter Alpha	6.1	4.7	66.7%	2		5.35s	399	1,358

Appel d'outils	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Grok 4.20 Beta	3.0	10.0	0.0%	0		12.39s	183	5,384
Grok 4.1 Fast	2.8	1.6	33.3%	1		27.71s	260	11,485
Hunter Alpha	10.0	10.0	100.0%	0		17.33s	308	904

Culture générale	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Grok 4.20 Beta	-	-	-	-	-	-	-	-
Grok 4.1 Fast	3.0	10.0	0.0%	0		25.52s	15	5,381
Hunter Alpha	-	-	-	-	-	-	-	-

Comparaison rapide

Changer la paire de comparaison

Claude Opus 4.7mediumvsGPT-5.5low GPT-5.4mediumvsQwen3.7 Maxnone Gemini 3 Flash PreviewnonevsGrok Build 0.1medium DeepSeek V4 FlashhighDisponible gratuitementvsMiMo-V2.5-Promedium Gemini 3.1 Flash Lite PreviewlowvsQwen3.5-Flashmedium Gemini 3.1 Flash LiteminimalvsKimi K2.5medium GPT-5.3 ChatnonevsMiMo-V2.5medium Gemini 3.1 Flash Lite PreviewlowvsMiMo-V2.5-Promedium Gemini 3.1 Flash LitelowvsGLM 5.1medium gpt-oss-120bmediumDisponible gratuitementvsQwen3.5-Flashnone Qwen3.7 MaxnonevsGLM 5 Turbomedium Gemini 3 Flash PreviewnonevsQwen3.6 Flashmedium