AI BENCHY
Comparer Graphiques
❤️ Made by XCS
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

#40

Mercury 2

Inception · Sortie: 2026-02-24 · inception/mercury-2::medium

Score moy.

48

Coût par résultat

0.726

Cohérence

83

Coût total

$0.044

Tests corrects

6

Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.

Tests incorrects

9

Taux de réussite par tentative: 51.1%

Tests instables

3

Temps de réponse : moy. 2.47s · total 34.56s · max 14.63s

Mauvaise réponse: 5 N'a pas suivi les instructions: 3 Erreur API: 1

Meilleurs modèles par score

Choisissez d'abord le premier modèle, puis cliquez sur un second modèle pour ouvrir une page côte à côte.

Comparaison rapide

Répartition par catégorie

Catégorie Score moy. Cohérence Tests corrects
Anti-AI Tricks 73 98 2/3
Combined 100 100 1/1
Data parsing and extraction 55 59 1/2
Domain specific 100 72 0/3
Instructions following 55 100 1/2
Puzzle Solving 17 75 0/3
Tool Calling 100 100 1/1