Navigare
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs DeepSeek: DeepSeek V3.2

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-05-29

Metrică Claude Opus 4.8 Claude Opus 4.8 none Lansare: 2026-05-28 DeepSeek V3.2 DeepSeek V3.2 medium Lansare: 2025-12-01
Scor 7.3 7.3
Rang #65 #67
Fiabilitate 10.0 10.0
Consistență 9.2 7.9
Teste corecte
Rată de trecere pe încercare 65.0% 67.5%
Teste instabile 2 5
Rulări totale 60 60
Cost per rezultat 4.324 0.335
Cost total $0.519 $0.037
Preț de intrare $5.000 / 1M $0.252 / 1M
Preț de ieșire $25.000 / 1M $0.378 / 1M
Tokenuri de ieșire 8,098 7,177
Tokenuri de raționament 0 68,297
Timp de răspuns (mediu) 3.51s 53.34s
Timp de răspuns (maxim) 17.73s 189.03s
Timp de răspuns (total) 70.19s 1066.71s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Claude Opus 4.8 6.5 10.0 50.0% 0 3.40s 1,472 0
DeepSeek V3.2 10.0 10.0 100.0% 0 24.23s 3,247 6,953
Programare Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Claude Opus 4.8 6.8 10.0 50.0% 0 3.59s 1,323 0
DeepSeek V3.2 4.1 5.8 33.3% 1 184.97s 640 21,230
Combinat Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Claude Opus 4.8 9.5 10.0 100.0% 0 17.73s 3,259 0
DeepSeek V3.2 10.0 10.0 100.0% 0 93.11s 571 6,296
Parsare și extragere de date Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Claude Opus 4.8 7.3 5.8 83.3% 1 1.77s 308 0
DeepSeek V3.2 10.0 10.0 100.0% 0 36.09s 207 7,693
Specific domeniului Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Claude Opus 4.8 5.3 7.2 44.4% 1 1.66s 61 0
DeepSeek V3.2 2.9 4.4 22.2% 2 24.27s 21 6,838
Inteligență generală Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Claude Opus 4.8 10.0 10.0 100.0% 0 3.48s 230 0
DeepSeek V3.2 5.1 2.5 50.0% 1 58.29s 49 2,189
Respectarea instrucțiunilor Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Claude Opus 4.8 9.9 10.0 100.0% 0 1.37s 95 0
DeepSeek V3.2 10.0 10.0 100.0% 0 35.78s 1,397 2,845
Rezolvare de puzzle-uri Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Claude Opus 4.8 7.7 10.0 66.7% 0 2.74s 783 0
DeepSeek V3.2 7.0 7.2 55.6% 1 37.69s 518 6,375
Apelare instrumente Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Claude Opus 4.8 10.0 10.0 100.0% 0 5.35s 355 0
DeepSeek V3.2 10.0 10.0 100.0% 0 34.81s 507 859
Cultură generală Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Claude Opus 4.8 3.0 10.0 0.0% 0 3.41s 212 0
DeepSeek V3.2 3.0 10.0 0.0% 0 83.99s 20 7,019

Comparație rapidă

Schimbă perechea de comparație