AI BENCHY
Compară Grafice
❤️ Made by XCS
Your ad here

#50

Mercury 2

Inception · Lansare: 2026-02-24 · inception/mercury-2::none

Scor mediu

31

Cost per rezultat

0.196

Consistență

89

Cost total

$0.006

Teste corecte

3

Un test este considerat trecut complet doar dacă toate rulările lui trec.

Teste greșite

12

Rată de trecere pe încercare: 26.7%

Teste instabile

2

Timp de răspuns: medie 594ms · total 8.91s · maxim 1.27s

Răspuns greșit: 11 Nu a urmat instrucțiunile: 1

Top modele după scor

Alege primul model, apoi fă clic pe al doilea model pentru a deschide o pagină alăturată.

Comparație rapidă

Defalcare pe categorii

Categorie Scor mediu Consistență Teste corecte
Anti-AI Tricks 100 100 0/3
Combined 100 100 0/1
Data parsing and extraction 55 59 1/2
Domain specific 40 72 1/3
Instructions following 35 100 0/2
Puzzle Solving 100 100 0/3
Tool Calling 100 100 1/1