AI BENCHY Compare

HY3 Preview vs Grok 4.20 Multi Agent Beta

Benchmarks générés à partir des suites de tests AI BENCHY le: 2026-04-26

Métrique	HY3 Preview HY3 Preview high Sortie: 2026-04-22 Disponible gratuitement	Grok 4.20 Multi Agent Beta Grok 4.20 Multi Agent Beta medium Sortie: 2026-03-12

Métrique	HY3 Preview HY3 Preview high Sortie: 2026-04-22 Disponible gratuitement	Grok 4.20 Multi Agent Beta Grok 4.20 Multi Agent Beta medium Sortie: 2026-03-12
Score	8.5	6.4
Rang	#11	#67
Fiabilité	N/D	N/D
Cohérence	8.8	7.4
Tests corrects
Taux de réussite par tentative	81.5%	57.4%
Tests instables	3	6
Exécutions totales	50	52
Coût par résultat	0.000	72.473
Coût total	$0.000	$5.074
Prix d'entrée	$0.000 / 1M	$0.000 / 1M
Prix de sortie	$0.000 / 1M	$0.000 / 1M
Jetons de sortie	238,920	299,034
Jetons de raisonnement	0	309,670
Temps de réponse (moy.)	55.19s	9.80s
Temps de réponse (max)	149.94s	35.28s
Temps de réponse (total)	938.23s	156.75s

Meilleurs modèles par score

Score vs coût total

Temps de réponse (moy.)

Score vs Temps de réponse (moy.)

Total des jetons de sortie

Score vs Total des jetons de sortie

Répartition par catégorie

Astuces anti-IA	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
HY3 Preview	10.0	10.0	100.0%	0		32.69s	26,550	0
Grok 4.20 Multi Agent Beta	6.9	5.8	75.0%	2		3.46s	33,706	33,077

Programmation	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
HY3 Preview	10.0	10.0	100.0%	0		99.76s	38,167	0
Grok 4.20 Multi Agent Beta	10.0	10.0	100.0%	0		27.11s	86	13,141

Combiné	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
HY3 Preview	10.0	10.0	100.0%	0		113.09s	31,319	0
Grok 4.20 Multi Agent Beta	3.0	10.0	0.0%	0		0ms	0	0

Analyse et extraction des données	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
HY3 Preview	6.5	10.0	50.0%	0		12.11s	4,323	0
Grok 4.20 Multi Agent Beta	10.0	10.0	100.0%	0		5.54s	25,306	25,051

Spécifique au domaine	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
HY3 Preview	5.3	7.2	44.4%	1		109.04s	87,559	0
Grok 4.20 Multi Agent Beta	2.9	7.2	11.1%	1		24.67s	164,609	163,647

Intelligence générale	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
HY3 Preview	10.0	10.0	100.0%	0		24.31s	5,490	0
Grok 4.20 Multi Agent Beta	5.8	2.8	66.7%	1		6.40s	15,848	15,746

Suivi des instructions	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
HY3 Preview	8.5	6.8	83.3%	1		34.02s	13,331	0
Grok 4.20 Multi Agent Beta	8.3	10.0	50.0%	0		4.63s	25,457	25,322

Résolution d'énigmes	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
HY3 Preview	9.0	7.9	88.9%	1		28.07s	21,811	0
Grok 4.20 Multi Agent Beta	7.2	5.1	77.8%	2		5.01s	34,022	33,686

Appel d'outils	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
HY3 Preview	10.0	10.0	100.0%	0		78.83s	10,370	0
Grok 4.20 Multi Agent Beta	3.0	10.0	0.0%	0		0ms	0	0

Comparaison rapide

Changer la paire de comparaison

Qwen3.5 Plus 2026-02-15mediumvsHY3 PreviewhighDisponible gratuitement Qwen3.6 Plus PreviewmediumDisponible gratuitementvsHY3 PreviewhighDisponible gratuitement Qwen3.5-27BmediumvsHY3 PreviewhighDisponible gratuitement GPT-5.3-CodexmediumvsHY3 PreviewhighDisponible gratuitement Gemini 3 PRO PreviewmediumvsHY3 PreviewhighDisponible gratuitement Seed-2.0-LitemediumvsHY3 PreviewhighDisponible gratuitement HY3 PreviewhighDisponible gratuitementvsGLM 5medium Gemma 4 31BmediumDisponible gratuitementvsHY3 PreviewhighDisponible gratuitement Gemini 2.5 FlashmediumvsHY3 PreviewhighDisponible gratuitement GPT-5.4mediumvsHY3 PreviewhighDisponible gratuitement Gemini 3.1 Flash Lite PreviewmediumvsHY3 PreviewhighDisponible gratuitement Gemini 3 Flash PreviewlowvsHY3 PreviewhighDisponible gratuitement