AI BENCHY
Advertise here
#70

Mimo V2 PRO

Xiaomi Veröffentlichung: 2026-03-18 Getestet am: 2026-04-11 01:44 xiaomi/mimo-v2-pro::none
(medium) (none)

Zusammenfassung

Mimo V2 PRO erreicht 6.0 bei AI BENCHY und liegt auf #70. Das Modell hat k. A. Zuverlässigkeit, 48.2% Erfolgsrate, $0.043 Gesamtkosten und 2.39s durchschnittliche Antwortzeit.

Was Mimo V2 PRO besonders macht: Am stärksten ist es in Programmierung, wo es #1 erreicht; am schwächsten ist Anti-KI-Tricks mit #13.

Archiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.

Identitätshinweis

Hunter Alpha war die Tarnversion von Mimo V2 PRO.

Punktzahl

6.0

Konsistenz

8.6

Zuverlässigkeit

k. A.

Gesamte Ausgabe-Token

2,320

Gesamte Eingabe-Token

0

Eingabepreis

$1.000 / 1M

Ausgabepreis

$3.000 / 1M

Korrekte Tests

Falsche Tests: 11

Erfolgsquote pro Versuch: 48.2%

Instabile Tests

3

Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).

Antwortzeit (Durchschnitt)

2.39s

Antwortzeit (Maximum): 6.58s

Antwortzeit (Gesamt): 43.06s

Generierungs-Showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#70 MiMo-V2-Pro

none
This model has been deprecated. It is recommended to migrate to xiaomi/mimo-v2.5-pro
Kosten
$0.000
Zeit
0.1s
Token
0 tok

Testverlauf

Getestet am Punktzahl Zuverlässigkeit Korrekte Tests Gesamtkosten Vergleichen
2026-06-04 13:47 Neuer Test hinzugefügt 5.6 10.0 $0.045 Vergleichen
2026-05-22 00:20 Suite geändert 5.7 10.0 $0.047 Vergleichen
2026-04-11 01:44 Erster erfasster Lauf 6.0 k. A. $0.043 Aktueller Lauf

Laufvergleich

LaufPunktzahlKonsistenzZuverlässigkeitKorrekte TestsInstabile TestsGesamte Ausgabe-TokenGesamte Eingabe-TokenGesamtkostenAntwortzeit (Durchschnitt)
2026-04-11 01:44 · Erster erfasster Lauf6.08.6k. A.7/1832,3200$0.0432.39s
2026-05-22 00:20 · Suite geändert5.78.710.07/2032,3710$0.0472.31s
Differenz+0.3-0.100-510-$0.005+84ms

Diese beiden Läufe nutzten unterschiedliche Benchmark-Suiten, daher spiegeln die Deltas sowohl Modell- als auch Suite-Änderungen wider.

Diagramme

Wähle zuerst das erste Modell und klicke dann ein zweites Modell, um eine Seite im direkten Vergleich zu öffnen.

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Schnellvergleich

Kategorieaufschlüsselung

Kategorie Punktzahl Konsistenz Korrekte Tests
Anti-KI-Tricks 3.5 8.0
Programmierung 10.0 10.0
Kombiniert 3.0 10.0
Datenanalyse und -extraktion 10.0 10.0
Domänenspezifisch 5.3 7.2
Allgemeine Intelligenz 4.3 9.9
Befolgung von Anweisungen 6.5 10.0
Rätsellösen 6.0 7.1
Werkzeugaufrufe 10.0 10.0

Verglichene Modelle