AI BENCHY Compare

Anthropic: Claude Opus 4.7 vs OpenAI: GPT-5.2 Chat

Résumé

Claude Opus 4.7 (medium) mène au score moyen avec 8.7 vs 8.5. GPT-5.2 Chat a le coût de benchmark le plus bas avec $0.393 vs $0.679. Claude Opus 4.7 (medium) est plus rapide avec 4.73s vs 7.13s, avec des taux de réussite de 82.5% vs 74.6%.

Modèle recommandéClaude Opus 4.7 (medium)Il obtient le meilleur score ici (8.7) et répond environ 1.5x plus vite que GPT-5.2 Chat.

Benchmarks générés à partir des suites de tests AI BENCHY le: 2026-07-14

Métrique	Claude Opus 4.7 Claude Opus 4.7 medium Sortie: 2026-04-16	GPT-5.2 Chat GPT-5.2 Chat none Sortie: 2025-12-11

Métrique	Claude Opus 4.7 Claude Opus 4.7 medium Sortie: 2026-04-16	GPT-5.2 Chat GPT-5.2 Chat none Sortie: 2025-12-11
Score	8.7	8.5
Rang	#16	#22
Fiabilité	10.0	10.0
Cohérence	9.6	8.9
Tests corrects
Taux de réussite par tentative	82.5%	74.6%
Tests instables	1	3
Exécutions totales	63	63
Coût par résultat	3.991	2.803
Coût total	$0.679	$0.393
Prix d'entrée	$5.000 / 1M	$1.750 / 1M
Prix de sortie	$25.000 / 1M	$14.000 / 1M
Total des jetons d'entrée	65,406	34,212
Jetons de sortie	11,858	23,744
Jetons de raisonnement	2,198	0
Temps de réponse (moy.)	4.73s	7.13s
Temps de réponse (max)	23.18s	38.52s
Temps de réponse (total)	94.51s	149.69s

Génération showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#16 Claude Opus 4.7

medium

Coût: $0.059
Temps: 26.8s
Tokens: 2,475 tok

#22 GPT-5.2 Chat

none

Coût: $0.010
Temps: 15.3s
Tokens: 797 tok

Meilleurs modèles par score

Score vs coût total

Temps de réponse (moy.)

Score vs Temps de réponse (moy.)

Total des jetons de sortie

Score vs Total des jetons de sortie

Répartition par catégorie

Catégorie:

Astuces anti-IA	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.7	8.3	10.0	75.0%	0		1.85s	894	348	0
GPT-5.2 Chat	8.7	7.9	91.7%	1		3.40s	606	1,807	0

Programmation	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.7	7.6	7.2	77.8%	1		12.96s	10,635	7,629	1,114
GPT-5.2 Chat	8.8	7.8	88.9%	1		9.82s	7,305	6,731	0

Combiné	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.7	10.0	10.0	100.0%	0		21.45s	24,501	2,369	1,084
GPT-5.2 Chat	10.0	10.0	100.0%	0		9.12s	11,019	1,243	0

Analyse et extraction des données	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.7	10.0	10.0	100.0%	0		2.37s	10,533	324	0
GPT-5.2 Chat	10.0	10.0	100.0%	0		3.05s	7,140	980	0

Spécifique au domaine	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.7	7.7	10.0	66.7%	0		1.17s	630	51	0
GPT-5.2 Chat	5.3	10.0	33.3%	0		17.78s	723	7,810	0

Intelligence générale	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.7	10.0	10.0	100.0%	0		2.87s	723	256	0
GPT-5.2 Chat	4.4	3.0	33.3%	1		3.20s	477	335	0

Suivi des instructions	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.7	10.0	10.0	100.0%	0		1.57s	939	114	0
GPT-5.2 Chat	9.8	10.0	100.0%	0		5.51s	660	1,441	0

Résolution d'énigmes	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.7	10.0	10.0	100.0%	0		2.43s	939	370	0
GPT-5.2 Chat	7.7	10.0	66.7%	0		4.10s	642	1,603	0

Appel d'outils	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.7	10.0	10.0	100.0%	0		4.17s	15,339	373	0
GPT-5.2 Chat	10.0	10.0	100.0%	0		4.68s	5,445	555	0

Culture générale	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.7	3.0	10.0	0.0%	0		2.25s	273	24	0
GPT-5.2 Chat	3.0	10.0	0.0%	0		6.89s	195	1,239	0

Comparaison rapide

Changer la paire de comparaison

Seed-2.0-LitemediumvsGPT-5.2 Chatnone GPT-5.2 ChatnonevsStep 3.7 Flashmedium GPT-5.2 ChatnonevsGLM 5medium GPT-5.2 ChatnonevsGrok 4.5medium GPT-5.2 ChatnonevsGLM 5.2medium DeepSeek V4 FlashhighvsGPT-5.2 Chatnone Gemini 2.5 FlashmediumvsGPT-5.2 Chatnone GPT-5.2 ChatnonevsQwen3.7 Plusmedium Claude Opus 4.8mediumvsGPT-5.2 Chatnone Nemotron 3 Ultra 550b A55bmediumDisponible gratuitementvsGPT-5.2 Chatnone GPT-5.2 ChatnonevsQwen3.6 Max Previewmedium Claude Opus 4.7mediumvsDeepSeek V4 Flashhigh