AI BENCHY Compare

OpenAI: GPT-5.3-Codex vs Qwen: Qwen3.6 Max Preview

Résumé

Comparaison benchmark GPT-5.3-Codex vs Qwen3.6 Max Preview : GPT-5.3-Codex mène au score moyen avec 8.9 vs 6.0. Qwen3.6 Max Preview a le coût de benchmark le plus bas avec $0.075 vs $0.740. Qwen3.6 Max Preview est plus rapide avec 3.30s vs 16.22s, avec des taux de réussite de 82.5% vs 58.7%.

Modèle recommandé: Qwen3.6 Max Preview - Il offre le meilleur compromis global: score compétitif (6.0), coût inférieur à GPT-5.3-Codex et temps de réponse équilibré.

Benchmarks générés à partir des suites de tests AI BENCHY le: 2026-06-18

Métrique	GPT-5.3-Codex GPT-5.3-Codex medium Sortie: 2026-02-05	Qwen3.6 Max Preview Qwen3.6 Max Preview none Sortie: 2026-04-20

Métrique	GPT-5.3-Codex GPT-5.3-Codex medium Sortie: 2026-02-05	Qwen3.6 Max Preview Qwen3.6 Max Preview none Sortie: 2026-04-20
Score	8.9	6.0
Rang	#10	#100
Fiabilité	10.0	10.0
Cohérence	8.5	9.2
Tests corrects
Taux de réussite par tentative	82.5%	58.7%
Tests instables	4	2
Exécutions totales	63	63
Coût par résultat	4.932	0.824
Coût total	$0.740	$0.075
Prix d'entrée	$1.750 / 1M	$1.040 / 1M
Prix de sortie	$14.000 / 1M	$6.240 / 1M
Total des jetons d'entrée	34,299	42,509
Jetons de sortie	2,357	4,779
Jetons de raisonnement	46,189	0
Temps de réponse (moy.)	16.22s	3.30s
Temps de réponse (max)	100.93s	20.51s
Temps de réponse (total)	340.67s	69.40s

Génération showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#10 GPT-5.3-Codex

medium

Coût: $0.049
Temps: 54.9s
Tokens: 3,580 tok

#100 Qwen3.6 Max Preview

none

Coût: $0.025
Temps: 83.9s
Tokens: 4,066 tok

Meilleurs modèles par score

Score vs coût total

Temps de réponse (moy.)

Score vs Temps de réponse (moy.)

Total des jetons de sortie

Score vs Total des jetons de sortie

Répartition par catégorie

Astuces anti-IA	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
GPT-5.3-Codex	8.7	7.9	91.7%	1		4.16s	606	240	1,722
Qwen3.6 Max Preview	5.2	7.9	41.7%	1		2.63s	696	513	0

Programmation	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
GPT-5.3-Codex	10.0	10.0	100.0%	0		19.50s	7,302	535	10,890
Qwen3.6 Max Preview	3.8	7.3	22.2%	1		3.12s	7,913	456	0

Combiné	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
GPT-5.3-Codex	10.0	10.0	100.0%	0		19.56s	11,019	364	2,731
Qwen3.6 Max Preview	3.0	10.0	0.0%	0		20.51s	14,949	2,842	0

Analyse et extraction des données	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
GPT-5.3-Codex	10.0	10.0	100.0%	0		3.07s	7,140	234	728
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		2.87s	7,794	243	0

Spécifique au domaine	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
GPT-5.3-Codex	5.9	7.2	55.6%	1		64.31s	813	64	25,308
Qwen3.6 Max Preview	7.7	10.0	66.7%	0		1.22s	789	18	0

Intelligence générale	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
GPT-5.3-Codex	4.6	10.0	0.0%	0		4.87s	477	187	331
Qwen3.6 Max Preview	4.3	10.0	0.0%	0		1.62s	522	76	0

Suivi des instructions	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
GPT-5.3-Codex	10.0	10.0	100.0%	0		3.04s	660	93	693
Qwen3.6 Max Preview	9.8	10.0	100.0%	0		1.40s	711	69	0

Résolution d'énigmes	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
GPT-5.3-Codex	9.0	7.9	88.9%	1		5.05s	642	356	1,593
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		2.65s	714	321	0

Appel d'outils	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
GPT-5.3-Codex	10.0	10.0	100.0%	0		6.37s	5,445	254	492
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		5.27s	8,211	222	0

Culture générale	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
GPT-5.3-Codex	2.8	1.6	33.3%	1		14.43s	195	30	1,701
Qwen3.6 Max Preview	3.0	10.0	0.0%	0		1.97s	210	19	0

Comparaison rapide

Changer la paire de comparaison