AI BENCHY Compare

Anthropic: Claude Opus 4.7 vs OpenAI: GPT-5.4

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-04-16

Metrică	Claude Opus 4.7 Claude Opus 4.7 none Lansare: 2026-04-16	GPT-5.4 GPT-5.4 medium Lansare: 2026-03-05

Metrică	Claude Opus 4.7 Claude Opus 4.7 none Lansare: 2026-04-16	GPT-5.4 GPT-5.4 medium Lansare: 2026-03-05
Scor	9.2	8.2
Rang	#4	#16
Consistență	10.0	8.7
Teste corecte
Rată de trecere pe încercare	88.9%	79.6%
Teste instabile	0	3
Rulări totale	54	54
Cost per rezultat	3.155	6.399
Cost total	$0.505	$0.832
Preț de intrare	$5.000 / 1M	$2.500 / 1M
Preț de ieșire	$25.000 / 1M	$15.000 / 1M
Tokenuri de ieșire	6,326	2,169
Tokenuri de raționament	0	48,732
Timp de răspuns (mediu)	3.13s	18.63s
Timp de răspuns (maxim)	18.27s	100.41s
Timp de răspuns (total)	56.33s	335.26s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.7	8.3	10.0	75.0%	0		2.12s	522	0
GPT-5.4	8.3	10.0	75.0%	0		4.11s	240	1,511

Programare	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.7	10.0	10.0	100.0%	0		2.84s	494	0
GPT-5.4	10.0	10.0	100.0%	0		13.03s	389	2,045

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.7	9.5	10.0	100.0%	0		18.27s	3,504	0
GPT-5.4	10.0	10.0	100.0%	0		20.57s	301	3,543

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.7	10.0	10.0	100.0%	0		2.15s	324	0
GPT-5.4	10.0	10.0	100.0%	0		5.32s	234	804

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.7	7.7	10.0	66.7%	0		1.19s	78	0
GPT-5.4	5.3	7.2	44.4%	1		74.27s	61	34,748

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.7	10.0	10.0	100.0%	0		3.47s	257	0
GPT-5.4	4.7	3.1	33.3%	1		4.92s	145	321

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.7	10.0	10.0	100.0%	0		1.46s	114	0
GPT-5.4	10.0	10.0	100.0%	0		3.11s	93	897

Rezolvare de puzzle-uri	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.7	10.0	10.0	100.0%	0		2.58s	661	0
GPT-5.4	8.2	7.2	88.9%	1		9.13s	442	3,832

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.7	10.0	10.0	100.0%	0		4.74s	372	0
GPT-5.4	10.0	10.0	100.0%	0		13.28s	264	1,031

Comparație rapidă

Schimbă perechea de comparație

Gemini 3 Flash PreviewnonevsGPT-5.4medium Gemini 3.1 Flash Lite PreviewlowvsGPT-5.4medium Gemini 3.1 Flash Lite PreviewnonevsGPT-5.4medium Claude Opus 4.7nonevsGemini 3 Flash Previewlow Claude Opus 4.7nonevsGemini 3.1 Pro Previewmedium Claude Opus 4.7nonevsSeed-2.0-Litemedium Gemini 3 Flash PreviewlowvsGPT-5.4medium Claude Opus 4.7nonevsGPT-5.3-Codexmedium Claude Opus 4.7nonevsQwen3.5 Plus 2026-02-15medium Claude Opus 4.7nonevsQwen3.6 Plus PreviewmediumDisponibil gratuit Claude Opus 4.7nonevsQwen3.5-27Bmedium Claude Opus 4.7nonevsGemini 3 PRO Previewmedium