Navigare
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

Inception: Mercury 2 vs Mistral: Mistral Small 4

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-04-11

Metrică Mercury 2 Mercury 2 none Lansare: 2026-02-24 Mistral Small 4 Mistral Small 4 medium Lansare: 2026-03-16
Scor 4.8 5.7
Rang #85 #69
Consistență 9.0 6.8
Teste corecte
Rată de trecere pe încercare 27.8% 50.0%
Teste instabile 2 7
Rulări totale 54 54
Cost per rezultat 0.165 0.674
Cost total $0.007 $0.034
Preț de intrare $0.250 / 1M $0.150 / 1M
Preț de ieșire $0.750 / 1M $0.600 / 1M
Tokenuri de ieșire 1,625 15,084
Tokenuri de raționament 0 39,408
Timp de răspuns (mediu) 613ms 5.64s
Timp de răspuns (maxim) 1.27s 30.49s
Timp de răspuns (total) 11.04s 101.52s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Mercury 2 3.0 10.0 0.0% 0 483ms 286 0
Mistral Small 4 5.6 3.8 66.7% 3 2.67s 4,055 4,778
Programare Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Mercury 2 3.6 8.9 0.0% 0 969ms 310 0
Mistral Small 4 6.7 3.5 66.7% 1 30.49s 2,796 11,296
Combinat Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Mercury 2 3.0 10.0 0.0% 0 606ms 131 0
Mistral Small 4 3.0 10.0 0.0% 0 25.25s 2,612 10,700
Parsare și extragere de date Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Mercury 2 7.3 5.9 83.3% 1 667ms 180 0
Mistral Small 4 7.3 5.9 83.3% 1 1.23s 335 723
Specific domeniului Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Mercury 2 5.3 7.2 44.4% 1 534ms 46 0
Mistral Small 4 5.3 7.2 44.4% 1 6.11s 2,621 6,904
Inteligență generală Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Mercury 2 4.8 10.0 0.0% 0 628ms 159 0
Mistral Small 4 4.8 10.0 0.0% 0 2.05s 821 828
Respectarea instrucțiunilor Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Mercury 2 6.5 10.0 50.0% 0 551ms 82 0
Mistral Small 4 7.3 5.8 83.3% 1 1.38s 540 1,031
Rezolvare de puzzle-uri Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Mercury 2 3.1 10.0 0.0% 0 533ms 234 0
Mistral Small 4 3.4 9.7 0.0% 0 2.00s 983 2,338
Apelare instrumente Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Mercury 2 10.0 10.0 100.0% 0 1.27s 197 0
Mistral Small 4 10.0 10.0 100.0% 0 3.50s 321 810

Comparație rapidă

Schimbă perechea de comparație