Navigare
AI BENCHY
Compară Grafice
❤️ Made by XCS
Your ad here

AI BENCHY Compare

Anthropic: Claude Opus 4.6 vs Inception: Mercury 2

Compară:

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-03-05

Metrică Anthropic: Claude Opus 4.6 medium Lansare: 2026-02-05 Inception: Mercury 2 none Lansare: 2026-02-24
Rang #30 #50
Scor mediu 64 34
Consistență 89 89
Cost per rezultat 14.411 0.147
Cost total $1.297 $0.006
Timp de răspuns (medie) 25.08s 594ms
Timp de răspuns (maxim) 83.40s 1.27s
Timp de răspuns (total) 200.67s 8.91s
Teste corecte
Rată de trecere pe încercare 64.4% 33.3%
Teste instabile 2 2
Tokenuri de ieșire 26,066 1,144
Tokenuri de raționament 17,071 0

Top modele după scor

Timp de răspuns (medie)

Scor vs cost total

Scor mediu vs Timp de răspuns (medie)

Defalcare pe categorii

Trucuri anti-AI Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (medie) Tokenuri de ieșire Tokenuri de raționament
Anthropic: Claude Opus 4.6 40 44 55.6% 2 11.88s 897 1,000
Inception: Mercury 2 100 100 0.0% 0 466ms 274 0
Combinat Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (medie) Tokenuri de ieșire Tokenuri de raționament
Anthropic: Claude Opus 4.6 100 100 100.0% 0 76.66s 8,178 5,194
Inception: Mercury 2 100 100 0.0% 0 606ms 131 0
Parsare și extragere de date Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (medie) Tokenuri de ieșire Tokenuri de raționament
Anthropic: Claude Opus 4.6 99 100 100.0% 0 7.37s 691 757
Inception: Mercury 2 55 59 83.3% 1 667ms 180 0
Specific domeniului Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (medie) Tokenuri de ieșire Tokenuri de raționament
Anthropic: Claude Opus 4.6 100 100 0.0% 0 83.40s 14,642 8,687
Inception: Mercury 2 40 72 44.4% 1 534ms 46 0
Respectarea instrucțiunilor Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (medie) Tokenuri de ieșire Tokenuri de raționament
Anthropic: Claude Opus 4.6 100 100 100.0% 0 2.43s 266 467
Inception: Mercury 2 55 100 50.0% 0 551ms 82 0
Puzzle Solving Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (medie) Tokenuri de ieșire Tokenuri de raționament
Anthropic: Claude Opus 4.6 70 100 66.7% 0 4.60s 531 637
Inception: Mercury 2 100 100 0.0% 0 533ms 234 0
Apelare instrumente Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (medie) Tokenuri de ieșire Tokenuri de raționament
Anthropic: Claude Opus 4.6 100 100 100.0% 0 9.73s 861 329
Inception: Mercury 2 100 100 100.0% 0 1.27s 197 0

Comparație rapidă

Schimbă perechea de comparație