Compară Grafice Metodologie

Limbă:

❤️ Made by XCS

AI BENCHY Compare

Anthropic: Claude Opus 4.6 vs OpenAI: GPT-5.4

Compară:

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-03-06

Metrică	Anthropic: Claude Opus 4.6 medium Lansare: 2026-02-05	OpenAI: GPT-5.4 none Lansare: 2026-03-05
Scor mediu	6.4	4.6
Rang	#30	#44
Teste corecte
Consistență	8.9	8.9
Cost per rezultat	14.411	1.496
Cost total	$1.297	$0.090
Rată de trecere pe încercare	64.4%	44.4%
Teste instabile	2	2
common.totalRuns	45 (15 x 3)	45 (15 x 3)
Tokenuri de ieșire	26,066	1,635
Tokenuri de raționament	17,071	0
Timp de răspuns (mediu)	25.08s	1.46s
Timp de răspuns (maxim)	83.40s	2.89s
Timp de răspuns (total)	200.67s	21.86s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor mediu vs Timp de răspuns (mediu)

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Anthropic: Claude Opus 4.6	4.0	4.4	55.6%	2		11.88s	897	1,000
OpenAI: GPT-5.4	10.0	7.3	11.1%	1		1.41s	388	0

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Anthropic: Claude Opus 4.6	10.0	10.0	100.0%	0		76.66s	8,178	5,194
OpenAI: GPT-5.4	10.0	10.0	0.0%	0		2.89s	291	0

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Anthropic: Claude Opus 4.6	9.9	10.0	100.0%	0		7.37s	691	757
OpenAI: GPT-5.4	9.9	10.0	100.0%	0		1.04s	222	0

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Anthropic: Claude Opus 4.6	10.0	10.0	0.0%	0		83.40s	14,642	8,687
OpenAI: GPT-5.4	4.0	7.2	44.4%	1		1.07s	50	0

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Anthropic: Claude Opus 4.6	10.0	10.0	100.0%	0		2.43s	266	467
OpenAI: GPT-5.4	5.5	10.0	50.0%	0		1.07s	81	0

Puzzle Solving	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Anthropic: Claude Opus 4.6	7.0	10.0	66.7%	0		4.60s	531	637
OpenAI: GPT-5.4	4.0	9.8	33.3%	0		1.52s	357	0

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Anthropic: Claude Opus 4.6	10.0	10.0	100.0%	0		9.73s	861	329
OpenAI: GPT-5.4	10.0	10.0	100.0%	0		2.75s	246	0

Comparație rapidă

Schimbă perechea de comparație

Claude Opus 4.6mediumvsQwen3.5 Plus 2026-02-15none MiniMax M2.5mediumvsGPT-5.4none Claude Opus 4.6mediumvsGemini 3 Flash Previewnone Claude Opus 4.6mediumvsGLM 5none Mercury 2mediumvsGPT-5.4none Claude Opus 4.6mediumvsGemini 3.1 Flash Lite Previewnone Claude Opus 4.6mediumvsGPT-5.3 Chatnone Claude Opus 4.6mediumvsGemini 3.1 Flash Lite Previewlow Claude Opus 4.6mediumvsGemini 2.5 Flashnone Claude Opus 4.6mediumvsDeepSeek V3.2none GPT-5.4nonevsQwen3.5-35B-A3Bmedium GPT-5.4nonevsQwen3 Coder Nextmedium