AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs OpenAI: GPT-5.3 Chat

Résumé

Comparaison benchmark Claude Opus 4.8 vs GPT-5.3 Chat : Claude Opus 4.8 mène au score moyen avec 8.8 vs 7.5. GPT-5.3 Chat a le coût de benchmark le plus bas avec $0.433 vs $1.107. GPT-5.3 Chat est plus rapide avec 6.34s vs 9.66s, avec des taux de réussite de 84.1% vs 66.7%.

Modèle recommandé: GPT-5.3 Chat - Il offre le meilleur compromis global: score compétitif (7.5), coût inférieur à Claude Opus 4.8 et temps de réponse équilibré.

Benchmarks générés à partir des suites de tests AI BENCHY le: 2026-06-18

Métrique	Claude Opus 4.8 Claude Opus 4.8 medium Sortie: 2026-05-28	GPT-5.3 Chat GPT-5.3 Chat none Sortie: 2026-03-03

Métrique	Claude Opus 4.8 Claude Opus 4.8 medium Sortie: 2026-05-28	GPT-5.3 Chat GPT-5.3 Chat none Sortie: 2026-03-03
Score	8.8	7.5
Rang	#12	#45
Fiabilité	10.0	10.0
Cohérence	9.6	8.1
Tests corrects
Taux de réussite par tentative	84.1%	66.7%
Tests instables	1	5
Exécutions totales	63	63
Coût par résultat	6.512	3.605
Coût total	$1.107	$0.433
Prix d'entrée	$5.000 / 1M	$1.750 / 1M
Prix de sortie	$25.000 / 1M	$14.000 / 1M
Total des jetons d'entrée	61,007	34,209
Jetons de sortie	26,495	26,617
Jetons de raisonnement	5,901	0
Temps de réponse (moy.)	9.66s	6.34s
Temps de réponse (max)	38.03s	18.33s
Temps de réponse (total)	202.89s	133.13s

Génération showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#12 Claude Opus 4.8

medium

Coût: $0.057
Temps: 23.1s
Tokens: 2,412 tok

#45 GPT-5.3 Chat

none

Coût: $0.008
Temps: 8.1s
Tokens: 634 tok

Meilleurs modèles par score

Score vs coût total

Temps de réponse (moy.)

Score vs Temps de réponse (moy.)

Total des jetons de sortie

Score vs Total des jetons de sortie

Répartition par catégorie

Astuces anti-IA	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.8	10.0	10.0	100.0%	0		3.95s	834	1,179	478
GPT-5.3 Chat	6.7	8.1	58.3%	1		3.86s	606	3,167	0

Programmation	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.8	10.0	10.0	100.0%	0		15.33s	10,590	9,945	1,381
GPT-5.3 Chat	5.6	4.7	55.6%	2		10.52s	7,302	6,632	0

Combiné	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.8	9.8	10.0	100.0%	0		38.03s	23,561	5,260	1,588
GPT-5.3 Chat	10.0	10.0	100.0%	0		11.96s	11,019	2,614	0

Analyse et extraction des données	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.8	7.1	5.6	83.3%	1		12.29s	10,503	481	312
GPT-5.3 Chat	10.0	10.0	100.0%	0		2.21s	7,140	942	0

Spécifique au domaine	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.8	5.3	10.0	33.3%	0		14.15s	975	7,477	900
GPT-5.3 Chat	3.5	4.4	33.3%	2		13.01s	723	8,264	0

Intelligence générale	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.8	10.0	10.0	100.0%	0		2.46s	708	237	0
GPT-5.3 Chat	4.6	10.0	0.0%	0		1.99s	477	319	0

Suivi des instructions	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.8	10.0	10.0	100.0%	0		3.32s	909	373	320
GPT-5.3 Chat	9.8	10.0	100.0%	0		3.51s	660	1,491	0

Résolution d'énigmes	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.8	10.0	10.0	100.0%	0		3.95s	894	791	483
GPT-5.3 Chat	10.0	10.0	100.0%	0		2.99s	642	1,758	0

Appel d'outils	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.8	10.0	10.0	100.0%	0		8.96s	11,775	301	225
GPT-5.3 Chat	10.0	10.0	100.0%	0		8.36s	5,445	861	0

Culture générale	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.8	3.0	10.0	0.0%	0		6.14s	258	451	214
GPT-5.3 Chat	3.0	10.0	0.0%	0		4.38s	195	569	0

Comparaison rapide

Changer la paire de comparaison

Mercury 2mediumvsGPT-5.3 Chatnone Kimi K2.5mediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsQwen3.6 Flashmedium DeepSeek V3.2mediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsGrok Build 0.1medium DeepSeek V4 ProhighvsGPT-5.3 Chatnone Seed-2.0-MinimediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsMiMo-V2.5-Promedium MiniMax M3mediumvsGPT-5.3 Chatnone Gemini 3 Flash PreviewlowvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsGrok 4.20medium GPT-5.3 ChatnonevsStep 3.7 Flashlow