Navigare
AI BENCHY
Advertise here

AI BENCHY Compare

Google: Gemini 3.5 Flash vs Inception: Mercury 2

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-06-03

Metrică Gemini 3.5 Flash Gemini 3.5 Flash high Lansare: 2026-05-19 Mercury 2 Mercury 2 medium Lansare: 2026-02-24
Scor 9.6 6.5
Rang #2 #89
Fiabilitate 10.0 10.0
Consistență 9.6 8.8
Teste corecte
Rată de trecere pe încercare 96.7% 51.7%
Teste instabile 1 3
Rulări totale 60 60
Cost per rezultat 5.231 0.611
Cost total $0.994 $0.055
Preț de intrare $1.500 / 1M $0.250 / 1M
Preț de ieșire $9.000 / 1M $0.750 / 1M
Total tokenuri de intrare 34,591 32,570
Tokenuri de ieșire 1,969 4,022
Tokenuri de raționament 102,679 58,405
Timp de răspuns (mediu) 8.30s 2.27s
Timp de răspuns (maxim) 34.82s 14.63s
Timp de răspuns (total) 165.92s 43.20s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de intrare Tokenuri de ieșire Tokenuri de raționament
Gemini 3.5 Flash 10.0 10.0 100.0% 0 2.57s 492 174 4,997
Mercury 2 6.9 9.9 50.0% 0 1.12s 554 2,546 2,609
Programare Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de intrare Tokenuri de ieșire Tokenuri de raționament
Gemini 3.5 Flash 10.0 10.0 100.0% 0 24.62s 5,115 450 34,170
Mercury 2 7.2 6.5 66.7% 1 2.29s 4,519 270 8,514
Combinat Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de intrare Tokenuri de ieșire Tokenuri de raționament
Gemini 3.5 Flash 10.0 10.0 100.0% 0 22.37s 12,873 351 16,323
Mercury 2 10.0 10.0 100.0% 0 3.28s 12,909 268 4,887
Parsare și extragere de date Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de intrare Tokenuri de ieșire Tokenuri de raționament
Gemini 3.5 Flash 10.0 10.0 100.0% 0 6.43s 7,548 279 8,466
Mercury 2 7.3 5.9 83.3% 1 1.11s 6,234 183 1,656
Specific domeniului Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de intrare Tokenuri de ieșire Tokenuri de raționament
Gemini 3.5 Flash 7.6 7.2 77.8% 1 14.09s 633 12 24,721
Mercury 2 2.9 7.2 11.1% 1 6.48s 695 41 30,754
Inteligență generală Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de intrare Tokenuri de ieșire Tokenuri de raționament
Gemini 3.5 Flash 10.0 10.0 100.0% 0 3.63s 486 115 1,650
Mercury 2 4.8 10.0 0.0% 0 821ms 456 137 542
Respectarea instrucțiunilor Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de intrare Tokenuri de ieșire Tokenuri de raționament
Gemini 3.5 Flash 10.0 10.0 100.0% 0 3.35s 615 70 3,799
Mercury 2 10.0 10.0 100.0% 0 1.07s 340 14 958
Rezolvare de puzzle-uri Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de intrare Tokenuri de ieșire Tokenuri de raționament
Gemini 3.5 Flash 10.0 10.0 100.0% 0 3.23s 558 241 4,940
Mercury 2 5.4 10.0 33.3% 0 949ms 601 361 2,781
Apelare instrumente Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de intrare Tokenuri de ieșire Tokenuri de raționament
Gemini 3.5 Flash 9.8 10.0 100.0% 0 4.96s 6,115 265 1,608
Mercury 2 10.0 10.0 100.0% 0 1.89s 6,080 180 1,956
Cultură generală Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de intrare Tokenuri de ieșire Tokenuri de raționament
Gemini 3.5 Flash 10.0 10.0 100.0% 0 3.94s 156 12 2,005
Mercury 2 3.0 10.0 0.0% 0 2.58s 182 22 3,748

Comparație rapidă

Schimbă perechea de comparație