AI BENCHY
Comparar Gráficos
❤️ Made by XCS
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

#50

Mercury 2

Inception · Lançamento: 2026-02-24 · inception/mercury-2::none

Pontuação média

31

Custo por resultado

0.196

Consistência

89

Custo total

$0.006

Testes corretos

3

Um teste é totalmente aprovado apenas quando todas as execuções passam.

Testes errados

12

Taxa de acerto por tentativa: 26.7%

Testes instáveis

2

Tempo de resposta: médio 594ms · total 8.91s · máx. 1.27s

Resposta incorreta: 11 Não seguiu as instruções: 1

Melhores modelos por pontuação

Escolha o primeiro modelo e depois clique em um segundo modelo para abrir uma página lado a lado.

Comparação rápida

Detalhamento por categoria

Categoria Pontuação média Consistência Testes corretos
Anti-AI Tricks 100 100 0/3
Combined 100 100 0/1
Data parsing and extraction 55 59 1/2
Domain specific 40 72 1/3
Instructions following 35 100 0/2
Puzzle Solving 100 100 0/3
Tool Calling 100 100 1/1