Anthropic: Claude Opus 4.6 vs OpenAI: GPT-5.3 Chat

Claude Opus 4.6 (medium) conduce la scorul mediu cu 7.7 vs 7.5. GPT-5.3 Chat are costul de benchmark mai mic, $0.571 vs $3.059. GPT-5.3 Chat este mai rapid cu 6.88s vs 34.27s, cu rate de reușită de 63.6% vs 68.2%.

Model recomandatGPT-5.3 ChatScorul rămâne aproape de cel mai bun scor de aici (7.5 vs 7.7) și costă de aproximativ 5.4x mai puțin decât Claude Opus 4.6 (medium).

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-07-25

Metrică	Claude Opus 4.6 Claude Opus 4.6 medium Lansare: 2026-02-05	GPT-5.3 Chat GPT-5.3 Chat none Lansare: 2026-03-03

Metrică	Claude Opus 4.6 Claude Opus 4.6 medium Lansare: 2026-02-05	GPT-5.3 Chat GPT-5.3 Chat none Lansare: 2026-03-03
Scor	7.7	7.5
Rang	#50	#62
Fiabilitate	10.0	10.0
Consistență	8.8	8.2
Teste corecte
Rată de trecere pe încercare	63.6%	68.2%
Teste instabile	3	5
Rulări totale	66	66
Cost per rezultat	23.524	4.387
Cost total	$3.059	$0.571
Preț de intrare	$5.000 / 1M	$1.750 / 1M
Preț de ieșire	$25.000 / 1M	$14.000 / 1M
Total tokenuri de intrare	108,615	78,990
Tokenuri de ieșire	72,286	30,854
Tokenuri de raționament	28,315	0
Timp de răspuns (mediu)	34.27s	6.88s
Timp de răspuns (maxim)	151.51s	18.33s
Timp de răspuns (total)	513.99s	151.31s

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#50 Claude Opus 4.6

medium

SVG invalid

Cost: $0.000
Timp: 300.0s
Tokenuri: 0 tok

#62 GPT-5.3 Chat

none

Cost: $0.008
Timp: 8.1s
Tokenuri: 634 tok

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Categorie:

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.6	6.4	5.8	66.7%	2		7.45s	840	986	1,071
GPT-5.3 Chat	6.7	8.1	58.3%	1		3.86s	606	3,167	0

Programare	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.6	5.7	7.1	44.4%	1		30.10s	8,522	13,057	4,121
GPT-5.3 Chat	5.6	4.7	55.6%	2		10.52s	7,302	6,632	0

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.6	10.0	10.0	100.0%	0		114.08s	76,073	33,018	9,509
GPT-5.3 Chat	10.0	10.0	100.0%	0		15.07s	55,800	6,851	0

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.6	10.0	10.0	100.0%	0		7.37s	8,676	691	757
GPT-5.3 Chat	10.0	10.0	100.0%	0		2.21s	7,140	942	0

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.6	3.0	10.0	0.0%	0		83.40s	674	14,642	8,687
GPT-5.3 Chat	3.5	4.4	33.3%	2		13.01s	723	8,264	0

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.6	10.0	10.0	100.0%	0		5.04s	564	188	292
GPT-5.3 Chat	4.6	10.0	0.0%	0		1.99s	477	319	0

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.6	10.0	10.0	100.0%	0		2.43s	792	266	467
GPT-5.3 Chat	9.8	10.0	100.0%	0		3.51s	660	1,491	0

Rezolvare de puzzle-uri	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.6	7.7	10.0	66.7%	0		4.71s	816	532	630
GPT-5.3 Chat	10.0	10.0	100.0%	0		2.99s	642	1,758	0

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.6	10.0	10.0	100.0%	0		9.73s	11,454	861	329
GPT-5.3 Chat	10.0	10.0	100.0%	0		8.36s	5,445	861	0

Cultură generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.6	3.0	10.0	0.0%	0		63.24s	204	8,045	2,452
GPT-5.3 Chat	3.0	10.0	0.0%	0		4.38s	195	569	0

Comparație rapidă

Schimbă perechea de comparație

Claude Opus 4.6mediumvsGPT-5.6 Lunahigh Kimi K2.7 CodemediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsQwen3.5 Plus 2026-02-15medium Claude Opus 4.6mediumvsDeepSeek V4 Flashhigh Nemotron 3 UltramediumDisponibil gratuitvsGPT-5.3 Chatnone Claude Opus 4.6mediumvsDeepSeek V4 Prohigh GPT-5.3 ChatnonevsQwen3.5-27Bmedium GPT-5.3 ChatnonevsGrok Build 0.1medium LongCat 2.0mediumvsGPT-5.3 Chatnone MiniMax M3mediumvsGPT-5.3 Chatnone Gemini 3 Flash PreviewlowvsGPT-5.3 Chatnone KAT-Coder-Pro V2.5lowvsGPT-5.3 Chatnone