Navigare
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

Anthropic: Claude Opus 4.6 vs Google: Gemini 3 Flash Preview

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-04-29

Metrică Claude Opus 4.6 Claude Opus 4.6 medium Lansare: 2026-02-05 Gemini 3 Flash Preview Gemini 3 Flash Preview medium Lansare: 2025-12-17
Scor 7.6 10.0
Rang #49 #1
Fiabilitate N/D N/D
Consistență 9.1 10.0
Teste corecte
Rată de trecere pe încercare 70.4% 100.0%
Teste instabile 2 0
Rulări totale 54 18
Cost per rezultat 12.047 0.600
Cost total $1.446 $0.108
Preț de intrare $5.000 / 1M $0.500 / 1M
Preț de ieșire $25.000 / 1M $3.000 / 1M
Tokenuri de ieșire 29,829 655
Tokenuri de raționament 18,938 33,749
Timp de răspuns (mediu) 21.08s 12.11s
Timp de răspuns (maxim) 83.40s 82.37s
Timp de răspuns (total) 231.84s 217.93s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Claude Opus 4.6 6.4 5.8 66.7% 2 7.45s 986 1,071
Gemini 3 Flash Preview 10.0 10.0 100.0% 0 3.26s 110 1,076
Programare Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Claude Opus 4.6 10.0 10.0 100.0% 0 23.11s 3,486 1,504
Gemini 3 Flash Preview 10.0 10.0 100.0% 0 82.37s 144 16,257
Combinat Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Claude Opus 4.6 10.0 10.0 100.0% 0 76.66s 8,178 5,194
Gemini 3 Flash Preview 10.0 10.0 100.0% 0 23.58s 117 3,495
Parsare și extragere de date Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Claude Opus 4.6 10.0 10.0 100.0% 0 7.37s 691 757
Gemini 3 Flash Preview 10.0 10.0 100.0% 0 7.62s 93 2,197
Specific domeniului Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Claude Opus 4.6 3.0 10.0 0.0% 0 83.40s 14,642 8,687
Gemini 3 Flash Preview 10.0 10.0 100.0% 0 14.81s 4 7,228
Inteligență generală Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Claude Opus 4.6 10.0 10.0 100.0% 0 5.04s 188 292
Gemini 3 Flash Preview 10.0 10.0 100.0% 0 6.34s 24 635
Respectarea instrucțiunilor Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Claude Opus 4.6 10.0 10.0 100.0% 0 2.43s 266 467
Gemini 3 Flash Preview 10.0 10.0 100.0% 0 4.30s 24 903
Rezolvare de puzzle-uri Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Claude Opus 4.6 7.7 10.0 66.7% 0 4.60s 531 637
Gemini 3 Flash Preview 10.0 10.0 100.0% 0 4.86s 61 1,455
Apelare instrumente Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Claude Opus 4.6 10.0 10.0 100.0% 0 9.73s 861 329
Gemini 3 Flash Preview 10.0 10.0 100.0% 0 9.78s 78 503

Comparație rapidă

Schimbă perechea de comparație