AI BENCHY Compare

Qwen: Qwen3.6 Max Preview vs xAI: Grok 4.3

Benchmarks générés à partir des suites de tests AI BENCHY le: 2026-05-07

Métrique	Qwen3.6 Max Preview Qwen3.6 Max Preview medium Sortie: 2026-04-20	Grok 4.3 Grok 4.3 medium Sortie: 2026-05-01

Métrique	Qwen3.6 Max Preview Qwen3.6 Max Preview medium Sortie: 2026-04-20	Grok 4.3 Grok 4.3 medium Sortie: 2026-05-01
Score	8.8	8.2
Rang	#8	#21
Fiabilité	10.0	10.0
Cohérence	9.5	8.6
Tests corrects
Taux de réussite par tentative	85.2%	81.5%
Tests instables	1	3
Exécutions totales	54	54
Coût par résultat	5.486	3.974
Coût total	$0.823	$0.517
Prix d'entrée	$1.040 / 1M	$1.250 / 1M
Prix de sortie	$6.240 / 1M	$2.500 / 1M
Jetons de sortie	2,158	1,223
Jetons de raisonnement	97,495	187,047
Temps de réponse (moy.)	48.31s	48.63s
Temps de réponse (max)	186.74s	216.69s
Temps de réponse (total)	869.64s	875.27s

Meilleurs modèles par score

Score vs coût total

Temps de réponse (moy.)

Score vs Temps de réponse (moy.)

Total des jetons de sortie

Score vs Total des jetons de sortie

Répartition par catégorie

Astuces anti-IA	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		22.13s	228	10,075
Grok 4.3	10.0	10.0	100.0%	0		8.83s	88	8,207

Programmation	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		117.87s	368	13,790
Grok 4.3	10.0	10.0	100.0%	0		45.72s	284	9,659

Combiné	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		121.49s	390	14,575
Grok 4.3	10.0	10.0	100.0%	0		63.99s	234	15,301

Analyse et extraction des données	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		41.15s	270	10,106
Grok 4.3	10.0	10.0	100.0%	0		18.97s	180	9,546

Spécifique au domaine	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Qwen3.6 Max Preview	2.9	7.2	11.1%	1		95.91s	60	30,371
Grok 4.3	5.3	7.2	44.4%	1		181.74s	14	111,300

Intelligence générale	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		32.24s	129	3,510
Grok 4.3	5.4	2.5	66.7%	1		24.70s	70	5,020

Suivi des instructions	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		24.31s	103	5,848
Grok 4.3	9.8	10.0	100.0%	0		18.58s	57	8,713

Résolution d'énigmes	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		24.19s	301	7,649
Grok 4.3	5.9	7.2	55.6%	1		22.53s	128	14,686

Appel d'outils	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		18.32s	309	1,571
Grok 4.3	10.0	10.0	100.0%	0		17.66s	168	4,615

Comparaison rapide

Changer la paire de comparaison

Gemini 3 Flash PreviewlowvsQwen3.6 Max Previewmedium HY3 PreviewlowDisponible gratuitementvsGrok 4.3medium Gemini 3 Flash PreviewnonevsGrok 4.3medium Gemini 3.1 Flash Lite PreviewlowvsGrok 4.3medium Qwen3.6 Max PreviewmediumvsHY3 PreviewhighDisponible gratuitement GPT-5.2 ChatnonevsGrok 4.3medium Gemini 3.1 Flash Lite PreviewnonevsGrok 4.3medium Claude Opus 4.7nonevsQwen3.6 Max Previewmedium GPT-5.3 ChatnonevsGrok 4.3medium HY3 PreviewhighDisponible gratuitementvsGrok 4.3medium DeepSeek V4 FlashhighvsGrok 4.3medium GPT-5.5lowvsQwen3.6 Max Previewmedium