AI BENCHY Compare

Anthropic: Claude Opus 4.6 vs DeepSeek: DeepSeek V4 Pro

Rezumat

Comparație benchmark Claude Opus 4.6 vs DeepSeek V4 Pro: Claude Opus 4.6 conduce la scorul mediu cu 7.7 vs 7.2. DeepSeek V4 Pro are costul de benchmark mai mic, $0.034 vs $2.053. DeepSeek V4 Pro este mai rapid cu 6.41s vs 25.89s, cu rate de reușită de 61.9% vs 52.4%.

Model recomandat: DeepSeek V4 Pro - Scorul rămâne aproape de cel mai bun scor de aici (7.2 vs 7.7) și costă de aproximativ 61.7x mai puțin decât Claude Opus 4.6.

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-06-18

Metrică	Claude Opus 4.6 Claude Opus 4.6 medium Lansare: 2026-02-05	DeepSeek V4 Pro DeepSeek V4 Pro none Lansare: 2026-04-24

Metrică	Claude Opus 4.6 Claude Opus 4.6 medium Lansare: 2026-02-05	DeepSeek V4 Pro DeepSeek V4 Pro none Lansare: 2026-04-24
Scor	7.7	7.2
Rang	#38	#58
Fiabilitate	10.0	9.9
Consistență	8.8	8.8
Teste corecte
Rată de trecere pe încercare	61.9%	52.4%
Teste instabile	3	3
Rulări totale	63	63
Cost per rezultat	17.103	0.333
Cost total	$2.053	$0.034
Preț de intrare	$5.000 / 1M	$0.435 / 1M
Preț de ieșire	$25.000 / 1M	$0.870 / 1M
Total tokenuri de intrare	53,227	53,558
Tokenuri de ieșire	47,446	11,424
Tokenuri de raționament	24,000	0
Timp de răspuns (mediu)	25.89s	6.41s
Timp de răspuns (maxim)	83.40s	30.09s
Timp de răspuns (total)	362.49s	134.66s

Prezentare generare

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#38 Claude Opus 4.6

medium

SVG invalid

Cost: $0.000
Timp: 300.0s
Tokenuri: 0 tok

#58 DeepSeek V4 Pro

none

SVG invalid

Cost: $0.000
Timp: 300.0s
Tokenuri: 0 tok

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.6	6.4	5.8	66.7%	2		7.45s	840	986	1,071
DeepSeek V4 Pro	3.2	6.1	16.7%	2		4.02s	540	1,168	0

Programare	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.6	5.7	7.1	44.4%	1		30.10s	8,522	13,057	4,121
DeepSeek V4 Pro	5.6	10.0	33.3%	0		13.38s	7,275	5,500	0

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.6	10.0	10.0	100.0%	0		76.66s	20,685	8,178	5,194
DeepSeek V4 Pro	9.5	10.0	100.0%	0		23.74s	27,529	2,235	0

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.6	10.0	10.0	100.0%	0		7.37s	8,676	691	757
DeepSeek V4 Pro	10.0	10.0	100.0%	0		4.61s	7,568	200	0

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.6	3.0	10.0	0.0%	0		83.40s	674	14,642	8,687
DeepSeek V4 Pro	5.3	10.0	33.3%	0		3.72s	666	24	0

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.6	10.0	10.0	100.0%	0		5.04s	564	188	292
DeepSeek V4 Pro	5.0	10.0	0.0%	0		2.05s	471	126	0

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.6	10.0	10.0	100.0%	0		2.43s	792	266	467
DeepSeek V4 Pro	6.3	5.8	66.7%	1		4.12s	627	713	0

Rezolvare de puzzle-uri	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.6	7.7	10.0	66.7%	0		4.71s	816	532	630
DeepSeek V4 Pro	10.0	10.0	100.0%	0		3.61s	594	442	0

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.6	10.0	10.0	100.0%	0		9.73s	11,454	861	329
DeepSeek V4 Pro	10.0	10.0	100.0%	0		7.40s	8,105	328	0

Cultură generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.6	3.0	10.0	0.0%	0		63.24s	204	8,045	2,452
DeepSeek V4 Pro	3.0	10.0	0.0%	0		5.76s	183	688	0

Comparație rapidă

Schimbă perechea de comparație