AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs OpenAI: GPT-5.2

Benchmarks générés à partir des suites de tests AI BENCHY le: 2026-05-28

Métrique	Claude Opus 4.8 Claude Opus 4.8 none Sortie: 2026-05-28	GPT-5.2 GPT-5.2 medium Sortie: 2025-12-11

Métrique	Claude Opus 4.8 Claude Opus 4.8 none Sortie: 2026-05-28	GPT-5.2 GPT-5.2 medium Sortie: 2025-12-11
Score	7.3	7.3
Rang	#63	#61
Fiabilité	10.0	10.0
Cohérence	9.2	8.3
Tests corrects
Taux de réussite par tentative	65.0%	70.0%
Tests instables	2	4
Exécutions totales	60	60
Coût par résultat	4.324	4.094
Coût total	$0.519	$0.492
Prix d'entrée	$5.000 / 1M	$1.750 / 1M
Prix de sortie	$25.000 / 1M	$14.000 / 1M
Jetons de sortie	8,098	2,880
Jetons de raisonnement	0	28,289
Temps de réponse (moy.)	3.51s	16.50s
Temps de réponse (max)	17.73s	77.80s
Temps de réponse (total)	70.19s	214.45s

Meilleurs modèles par score

Score vs coût total

Temps de réponse (moy.)

Score vs Temps de réponse (moy.)

Total des jetons de sortie

Score vs Total des jetons de sortie

Répartition par catégorie

Astuces anti-IA	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.8	6.5	10.0	50.0%	0		3.40s	1,472	0
GPT-5.2	6.5	8.0	58.3%	1		7.81s	567	2,002

Programmation	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.8	6.8	10.0	50.0%	0		3.59s	1,323	0
GPT-5.2	10.0	10.0	100.0%	0		23.15s	490	8,269

Combiné	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.8	9.5	10.0	100.0%	0		17.73s	3,259	0
GPT-5.2	10.0	10.0	100.0%	0		14.06s	291	1,757

Analyse et extraction des données	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.8	7.3	5.8	83.3%	1		1.77s	308	0
GPT-5.2	10.0	10.0	100.0%	0		3.15s	234	420

Spécifique au domaine	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.8	5.3	7.2	44.4%	1		1.66s	61	0
GPT-5.2	5.9	7.2	55.6%	1		77.80s	42	10,342

Intelligence générale	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.8	10.0	10.0	100.0%	0		3.48s	230	0
GPT-5.2	3.7	9.7	0.0%	0		4.32s	162	269

Suivi des instructions	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.8	9.9	10.0	100.0%	0		1.37s	95	0
GPT-5.2	9.9	10.0	100.0%	0		3.12s	94	614

Résolution d'énigmes	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.8	7.7	10.0	66.7%	0		2.74s	783	0
GPT-5.2	7.5	7.3	77.8%	1		5.80s	735	924

Appel d'outils	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.8	10.0	10.0	100.0%	0		5.35s	355	0
GPT-5.2	4.7	1.6	66.7%	1		10.30s	239	469

Culture générale	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.8	3.0	10.0	0.0%	0		3.41s	212	0
GPT-5.2	3.0	10.0	0.0%	0		28.18s	26	3,223

Comparaison rapide

Changer la paire de comparaison

Claude Opus 4.8nonevsQwen3.5-35B-A3Bmedium Claude Opus 4.8nonevsRing-2.6-1Tmedium Claude Opus 4.8nonevsGPT-5.4 Minimedium Claude Opus 4.8nonevsGLM 5V Turbomedium Ring-2.6-1TnonevsGPT-5.2medium Claude Opus 4.8nonevsGPT-5.4 Nanomedium Gemini 3.1 Flash LitelowvsGPT-5.2medium Claude Opus 4.8nonevsStep 3.5 Flashmedium Claude Opus 4.8nonevsGPT-5 Minimedium Claude Opus 4.8nonevsKimi K2.6mediumDisponible gratuitement Claude Opus 4.8nonevsMiMo-V2.5medium Gemini 3.1 Flash Lite PreviewnonevsGPT-5.2medium