AI BENCHY Compare

Anthropic: Claude Opus 4.6 vs OpenAI: GPT-5.2

Benchmarks générés à partir des suites de tests AI BENCHY le: 2026-04-30

Métrique	Claude Opus 4.6 Claude Opus 4.6 medium Sortie: 2026-02-05	GPT-5.2 GPT-5.2 medium Sortie: 2025-12-11

Métrique	Claude Opus 4.6 Claude Opus 4.6 medium Sortie: 2026-02-05	GPT-5.2 GPT-5.2 medium Sortie: 2025-12-11
Score	7.6	7.5
Rang	#49	#53
Fiabilité	N/D	N/D
Cohérence	9.1	8.1
Tests corrects
Taux de réussite par tentative	70.4%	72.2%
Tests instables	2	4
Exécutions totales	54	54
Coût par résultat	12.047	3.193
Coût total	$1.446	$0.352
Prix d'entrée	$5.000 / 1M	$1.750 / 1M
Prix de sortie	$25.000 / 1M	$14.000 / 1M
Jetons de sortie	29,829	2,705
Jetons de raisonnement	18,938	18,977
Temps de réponse (moy.)	21.08s	14.04s
Temps de réponse (max)	83.40s	77.80s
Temps de réponse (total)	231.84s	154.41s

Meilleurs modèles par score

Score vs coût total

Temps de réponse (moy.)

Score vs Temps de réponse (moy.)

Total des jetons de sortie

Score vs Total des jetons de sortie

Répartition par catégorie

Astuces anti-IA	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.6	6.4	5.8	66.7%	2		7.45s	986	1,071
GPT-5.2	6.5	8.0	58.3%	1		7.81s	567	2,002

Programmation	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.6	10.0	10.0	100.0%	0		23.11s	3,486	1,504
GPT-5.2	10.0	10.0	100.0%	0		15.12s	467	2,166

Combiné	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.6	10.0	10.0	100.0%	0		76.66s	8,178	5,194
GPT-5.2	10.0	10.0	100.0%	0		14.06s	291	1,757

Analyse et extraction des données	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.6	10.0	10.0	100.0%	0		7.37s	691	757
GPT-5.2	10.0	10.0	100.0%	0		3.15s	234	420

Spécifique au domaine	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.6	3.0	10.0	0.0%	0		83.40s	14,642	8,687
GPT-5.2	5.9	7.2	55.6%	1		77.80s	42	10,342

Intelligence générale	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.6	10.0	10.0	100.0%	0		5.04s	188	292
GPT-5.2	3.7	9.7	0.0%	0		4.32s	162	269

Suivi des instructions	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.6	10.0	10.0	100.0%	0		2.43s	266	467
GPT-5.2	9.9	10.0	100.0%	0		3.12s	94	614

Résolution d'énigmes	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.6	7.7	10.0	66.7%	0		4.60s	531	637
GPT-5.2	7.7	7.3	77.8%	1		5.47s	609	938

Appel d'outils	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.6	10.0	10.0	100.0%	0		9.73s	861	329
GPT-5.2	4.7	1.6	66.7%	1		10.30s	239	469

Comparaison rapide

Changer la paire de comparaison

GPT-5.2mediumvsQwen3.6 Max Previewnone Claude Sonnet 4.6nonevsGPT-5.2medium Claude Opus 4.6mediumvsQwen3.6 Max Previewnone Claude Opus 4.6mediumvsDeepSeek V4 Flashhigh Claude Opus 4.6mediumvsGPT-5.3 Chatnone Claude Opus 4.6mediumvsGemini 3.1 Flash Lite Previewnone Claude Opus 4.6mediumvsGPT-5.2 Chatnone DeepSeek V4 FlashhighvsGPT-5.2medium Gemini 3.1 Flash Lite PreviewnonevsGPT-5.2medium Claude Opus 4.6mediumvsGemini 3.1 Flash Lite Previewlow Claude Opus 4.6mediumvsGemini 3 Flash Previewnone Claude Opus 4.6mediumvsHY3 PreviewlowDisponible gratuitement