#50
Mercury 2
Inception · Veröffentlichung: 2026-02-24 · inception/mercury-2::none
Ø-Score
31
Kosten pro Ergebnis
0.196
Konsistenz
89
Gesamtkosten
$0.006
Korrekte Tests
3
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.
Falsche Tests
12
Erfolgsquote pro Versuch: 26.7%
Instabile Tests
2
Antwortzeit: Durchschn. 594ms · Gesamt 8.91s · Max. 1.27s
Falsche Antwort: 11 Anweisungen nicht befolgt: 1
Top-Modelle nach Score
Wähle zuerst das erste Modell und klicke dann ein zweites Modell, um eine Seite im direkten Vergleich zu öffnen.
Schnellvergleich
Mercury 2nonevsQwen3 Coder NextnoneMercury 2nonevsQwen3 Coder NextmediumMercury 2nonevsKimi K2.5noneMercury 2nonevsGrok 4.1 FastnoneMercury 2nonevsGLM 4.7 FlashnoneMercury 2nonevsGLM 4.7 FlashmediumMercury 2nonevsGemini 3 Flash PreviewmediumMercury 2nonevsGemini 3.1 Pro PreviewmediumMercury 2nonevsStep 3.5 FlashmediumKostenlos verfügbar
Kategorieaufschlüsselung
| Kategorie | Ø-Score | Konsistenz | Korrekte Tests |
|---|---|---|---|
| Anti-AI Tricks | 100 | 100 | 0/3 |
| Combined | 100 | 100 | 0/1 |
| Data parsing and extraction | 55 | 59 | 1/2 |
| Domain specific | 40 | 72 | 1/3 |
| Instructions following | 35 | 100 | 0/2 |
| Puzzle Solving | 100 | 100 | 0/3 |
| Tool Calling | 100 | 100 | 1/1 |