#99
Inception
Veröffentlichung: 2026-02-24
Getestet am: 2026-04-11 01:44
inception/mercury-2::none
(medium)
(none)
4.8
Konsistenz
9.0
k. A.
Gesamte Ausgabe-Token
1,625
Gesamte Eingabe-Token
0
Eingabepreis
$0.250 / 1M
Ausgabepreis
$0.750 / 1M
Instabile Tests
2
Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).
Testverlauf
| Getestet am | Punktzahl | Zuverlässigkeit | Korrekte Tests | Gesamtkosten | Vergleichen |
|---|---|---|---|---|---|
| 2026-05-22 00:39 Suite geändert | 4.6 | 10.0 | $0.009 | Vergleichen | |
| 2026-04-11 01:44 Erster erfasster Lauf | 4.8 | k. A. | $0.007 | Aktueller Lauf |
Diagramme
Wähle zuerst das erste Modell und klicke dann ein zweites Modell, um eine Seite im direkten Vergleich zu öffnen.
Punktzahl vs Gesamtkosten
Antwortzeit (Durchschnitt)
Punktzahl vs Antwortzeit (Durchschnitt)
Gesamte Ausgabe-Token
Punktzahl vs Gesamte Ausgabe-Token
Schnellvergleich
Mercury 2nonevsGLM 5 TurbononeMercury 2nonevsElephant AlphamediumMercury 2nonevsQwen3.5-122B-A10BnoneMercury 2nonevsLing-2.6-flashnoneMercury 2nonevsDeepSeek V3.2noneMercury 2nonevsElephant AlphanoneMercury 2nonevsGemini 3 Flash PreviewmediumMercury 2nonevsGemini 3.5 FlashhighMercury 2nonevsRing-2.6-1TmediumMercury 2nonevsGemini 3.5 Flashlow
Kategorieaufschlüsselung
| Kategorie | Punktzahl | Konsistenz | Korrekte Tests |
|---|---|---|---|
| Anti-KI-Tricks | 3.0 | 10.0 | |
| Programmierung | 3.6 | 8.9 | |
| Kombiniert | 3.0 | 10.0 | |
| Datenanalyse und -extraktion | 7.3 | 5.9 | |
| Domänenspezifisch | 5.3 | 7.2 | |
| Allgemeine Intelligenz | 4.8 | 10.0 | |
| Befolgung von Anweisungen | 6.5 | 10.0 | |
| Rätsellösen | 3.1 | 10.0 | |
| Werkzeugaufrufe | 10.0 | 10.0 |