AI BENCHY
Vergleichen Diagramme
❤️ Made by XCS
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

#40

Mercury 2

Inception · Veröffentlichung: 2026-02-24 · inception/mercury-2::medium

Ø-Score

48

Kosten pro Ergebnis

0.726

Konsistenz

83

Gesamtkosten

$0.044

Korrekte Tests

6

Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.

Falsche Tests

9

Erfolgsquote pro Versuch: 51.1%

Instabile Tests

3

Antwortzeit: Durchschn. 2.47s · Gesamt 34.56s · Max. 14.63s

Falsche Antwort: 5 Anweisungen nicht befolgt: 3 API-Fehler: 1

Top-Modelle nach Score

Wähle zuerst das erste Modell und klicke dann ein zweites Modell, um eine Seite im direkten Vergleich zu öffnen.

Schnellvergleich

Kategorieaufschlüsselung

Kategorie Ø-Score Konsistenz Korrekte Tests
Anti-AI Tricks 73 98 2/3
Combined 100 100 1/1
Data parsing and extraction 55 59 1/2
Domain specific 100 72 0/3
Instructions following 55 100 1/2
Puzzle Solving 17 75 0/3
Tool Calling 100 100 1/1