AI BENCHY
Comparar Gráficos
❤️ Made by XCS
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

#50

Mercury 2

Inception · Lanzamiento: 2026-02-24 · inception/mercury-2::none

Puntaje prom.

31

Costo por resultado

0.196

Consistencia

89

Costo total

$0.006

Pruebas correctas

3

Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.

Pruebas incorrectas

12

Tasa de aciertos por intento: 26.7%

Pruebas inestables

2

Tiempo de respuesta: promedio 594ms · total 8.91s · máximo 1.27s

Respuesta incorrecta: 11 No siguió las instrucciones: 1

Mejores modelos por puntuación

Elige el primer modelo y luego haz clic en un segundo modelo para abrir una página lado a lado.

Comparación rápida

Desglose por categoría

Categoría Puntaje prom. Consistencia Pruebas correctas
Anti-AI Tricks 100 100 0/3
Combined 100 100 0/1
Data parsing and extraction 55 59 1/2
Domain specific 40 72 1/3
Instructions following 35 100 0/2
Puzzle Solving 100 100 0/3
Tool Calling 100 100 1/1