AI BENCHY Compare

OpenAI: GPT-5.5 vs xAI: Grok 4.20

Résumé

Comparaison benchmark GPT-5.5 vs Grok 4.20 : GPT-5.5 mène au score moyen avec 9.3 vs 7.3. Grok 4.20 a le coût de benchmark le plus bas avec $0.609 vs $0.907. GPT-5.5 est plus rapide avec 9.76s vs 27.68s, avec des taux de réussite de 85.7% vs 63.5%.

Modèle recommandé: GPT-5.5 - Il obtient le meilleur score ici (9.3) et répond environ 2.8x plus vite que Grok 4.20.

Benchmarks générés à partir des suites de tests AI BENCHY le: 2026-06-18

Métrique	GPT-5.5 GPT-5.5 low Sortie: 2026-04-24	Grok 4.20 Grok 4.20 medium Sortie: 2026-03-31

Métrique	GPT-5.5 GPT-5.5 low Sortie: 2026-04-24	Grok 4.20 Grok 4.20 medium Sortie: 2026-03-31
Score	9.3	7.3
Rang	#4	#53
Fiabilité	10.0	10.0
Cohérence	10.0	8.8
Tests corrects
Taux de réussite par tentative	85.7%	63.5%
Tests instables	0	3
Exécutions totales	63	63
Coût par résultat	5.035	8.309
Coût total	$0.907	$0.609
Prix d'entrée	$5.000 / 1M	$1.250 / 1M
Prix de sortie	$30.000 / 1M	$2.500 / 1M
Total des jetons d'entrée	34,209	44,433
Jetons de sortie	2,046	1,819
Jetons de raisonnement	22,460	219,524
Temps de réponse (moy.)	9.76s	27.68s
Temps de réponse (max)	56.19s	199.66s
Temps de réponse (total)	204.92s	581.26s

Génération showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#4 GPT-5.5

low

Coût: $0.068
Temps: 37.0s
Tokens: 2,339 tok

#53 xAI: Grok 4.20

medium

Coût: $0.041
Temps: 110.3s
Tokens: 16,336 tok

Meilleurs modèles par score

Score vs coût total

Temps de réponse (moy.)

Score vs Temps de réponse (moy.)

Total des jetons de sortie

Score vs Total des jetons de sortie

Répartition par catégorie

Astuces anti-IA	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
GPT-5.5	10.0	10.0	100.0%	0		4.41s	606	238	1,020
Grok 4.20	8.2	7.9	83.3%	1		3.95s	2,010	287	8,312

Programmation	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
GPT-5.5	10.0	10.0	100.0%	0		15.04s	7,302	423	6,402
Grok 4.20	6.3	6.6	55.6%	1		109.93s	8,307	268	103,150

Combiné	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
GPT-5.5	10.0	10.0	100.0%	0		9.56s	11,019	303	717
Grok 4.20	10.0	10.0	100.0%	0		17.40s	12,909	232	9,556

Analyse et extraction des données	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
GPT-5.5	10.0	10.0	100.0%	0		3.28s	7,140	228	157
Grok 4.20	10.0	10.0	100.0%	0		4.17s	7,761	180	5,333

Spécifique au domaine	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
GPT-5.5	5.3	10.0	33.3%	0		28.05s	723	69	11,609
Grok 4.20	5.3	10.0	33.3%	0		27.03s	1,764	375	49,339

Intelligence générale	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
GPT-5.5	10.0	10.0	100.0%	0		5.17s	477	133	245
Grok 4.20	3.9	2.6	33.3%	1		24.48s	825	65	6,440

Suivi des instructions	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
GPT-5.5	9.9	10.0	100.0%	0		3.74s	660	93	415
Grok 4.20	9.8	10.0	100.0%	0		4.26s	1,362	57	6,419

Résolution d'énigmes	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
GPT-5.5	10.0	10.0	100.0%	0		4.74s	642	279	954
Grok 4.20	7.7	10.0	66.7%	0		6.22s	1,689	149	7,913

Appel d'outils	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
GPT-5.5	10.0	10.0	100.0%	0		4.96s	5,445	250	101
Grok 4.20	3.0	10.0	0.0%	0		13.68s	7,275	197	6,620

Culture générale	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
GPT-5.5	3.0	10.0	0.0%	0		10.06s	195	30	840
Grok 4.20	3.0	10.0	0.0%	0		63.48s	531	9	16,442

Comparaison rapide

Changer la paire de comparaison

Gemini 3 Flash PreviewlowvsGrok 4.20medium GPT-5.5lowvsQwen3.7 Maxmedium Claude Sonnet 4.6nonevsGrok 4.20medium Claude Opus 4.8nonevsGrok 4.20medium Claude Fable 5mediumvsGPT-5.5low Gemini 3.1 Pro PreviewmediumvsGPT-5.5low GPT-5.3 ChatnonevsGrok 4.20medium DeepSeek V4 PrononevsGrok 4.20medium Qwen3.7 PlusnonevsGrok 4.20medium Gemini 3.5 FlashmediumvsGPT-5.5low Grok 4.20mediumvsGLM 5.2none Step 3.7 FlashhighvsGrok 4.20medium