DeepSeek: DeepSeek V4 Pro vs Xiaomi: MiMo-V2-Flash
Zusammenfassung
DeepSeek V4 Pro vs MiMo-V2-Flash Benchmark-Vergleich: DeepSeek V4 Pro führt beim Durchschnittsscore mit 7.2 vs 7.1. DeepSeek V4 Pro hat die niedrigeren Benchmark-Kosten mit $0.034 vs $0.043. DeepSeek V4 Pro ist schneller mit 6.41s vs 20.11s, mit Erfolgsraten von 52.4% vs 65.1%.
Empfohlenes Modell: DeepSeek V4 Pro - Es hat hier die beste Punktzahl (7.2) und antwortet etwa 3.1x schneller als MiMo-V2-Flash.
Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-06-18
MiMo-V2-FlashMiMo-V2-FlashmediumArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.Veröffentlichung: 2025-12-16
MiMo-V2-FlashMiMo-V2-FlashmediumArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.Veröffentlichung: 2025-12-16
Punktzahl
7.2Durchschnittswert über alle Benchmark-Tests.…
7.1Durchschnittswert über alle Benchmark-Tests.…
Rang
#58
#62
Zuverlässigkeit
9.9Erfolgswert beim ersten Versuch: 10.0 bedeutet keine wiederholbaren Ziel-API- oder Rate-Limit-Fehler vor erfolgreichen Aufrufen; erfasste Fehler senken den Wert.…
10.0Erfolgswert beim ersten Versuch: 10.0 bedeutet keine wiederholbaren Ziel-API- oder Rate-Limit-Fehler vor erfolgreichen Aufrufen; erfasste Fehler senken den Wert.…
Konsistenz
8.8Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
8.8Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
Korrekte Tests
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 8Anweisungen nicht befolgt: 2Zusätzliche Formatierung: 1Antwortzeit (Durchschnitt)6.41sAntwortzeit (Maximum)30.09sAntwortzeit (Gesamt)134.66sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
6.1Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
16.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
2Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Zusätzliche Formatierung: 1Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)4.02sAntwortzeit (Maximum)5.11sAntwortzeit (Gesamt)16.10sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
4.02sAntwortzeit (Durchschnitt)…
540Gesamte Eingabe-Token…
1,168Ausgabe-Token…
0Denk-Token…
MiMo-V2-FlashArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
8.1Durchschnittswert über alle Benchmark-Tests.…
7.9Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
83.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zusätzliche Formatierung: 1Antwortzeit (Durchschnitt)15.85sAntwortzeit (Maximum)20.83sAntwortzeit (Gesamt)47.55sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
33.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)13.38sAntwortzeit (Maximum)30.09sAntwortzeit (Gesamt)40.15sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
13.38sAntwortzeit (Durchschnitt)…
7,275Gesamte Eingabe-Token…
5,500Ausgabe-Token…
0Denk-Token…
MiMo-V2-FlashArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
6.0Durchschnittswert über alle Benchmark-Tests.…
7.2Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
55.6%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)10.71sAntwortzeit (Maximum)17.72sAntwortzeit (Gesamt)32.13sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)23.74sAntwortzeit (Maximum)23.74sAntwortzeit (Gesamt)23.74sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
23.74sAntwortzeit (Durchschnitt)…
27,529Gesamte Eingabe-Token…
2,235Ausgabe-Token…
0Denk-Token…
MiMo-V2-FlashArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
9.8Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)75.68sAntwortzeit (Maximum)75.68sAntwortzeit (Gesamt)75.68sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.61sAntwortzeit (Maximum)6.06sAntwortzeit (Gesamt)9.23sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
4.61sAntwortzeit (Durchschnitt)…
7,568Gesamte Eingabe-Token…
200Ausgabe-Token…
0Denk-Token…
MiMo-V2-FlashArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
6.5Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
50.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Antwortzeit (Durchschnitt)0msAntwortzeit (Maximum)0msAntwortzeit (Gesamt)0msEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
33.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)3.72sAntwortzeit (Maximum)7.90sAntwortzeit (Gesamt)11.17sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
3.72sAntwortzeit (Durchschnitt)…
666Gesamte Eingabe-Token…
24Ausgabe-Token…
0Denk-Token…
MiMo-V2-FlashArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
5.9Durchschnittswert über alle Benchmark-Tests.…
7.2Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
55.6%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)96.01sAntwortzeit (Maximum)96.01sAntwortzeit (Gesamt)96.01sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)2.05sAntwortzeit (Maximum)2.05sAntwortzeit (Gesamt)2.05sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
2.05sAntwortzeit (Durchschnitt)…
471Gesamte Eingabe-Token…
126Ausgabe-Token…
0Denk-Token…
MiMo-V2-FlashArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
4.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)4.20sAntwortzeit (Maximum)4.20sAntwortzeit (Gesamt)4.20sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
5.8Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
66.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)4.12sAntwortzeit (Maximum)4.37sAntwortzeit (Gesamt)8.24sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
4.12sAntwortzeit (Durchschnitt)…
627Gesamte Eingabe-Token…
713Ausgabe-Token…
0Denk-Token…
MiMo-V2-FlashArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.28sAntwortzeit (Maximum)7.37sAntwortzeit (Gesamt)8.55sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.61sAntwortzeit (Maximum)5.19sAntwortzeit (Gesamt)10.83sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
3.61sAntwortzeit (Durchschnitt)…
594Gesamte Eingabe-Token…
442Ausgabe-Token…
0Denk-Token…
MiMo-V2-FlashArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
7.7Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
66.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)3.87sAntwortzeit (Maximum)5.26sAntwortzeit (Gesamt)7.74sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)7.40sAntwortzeit (Maximum)7.40sAntwortzeit (Gesamt)7.40sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
7.40sAntwortzeit (Durchschnitt)…
8,105Gesamte Eingabe-Token…
328Ausgabe-Token…
0Denk-Token…
MiMo-V2-FlashArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)27.78sAntwortzeit (Maximum)27.78sAntwortzeit (Gesamt)27.78sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)5.76sAntwortzeit (Maximum)5.76sAntwortzeit (Gesamt)5.76sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
5.76sAntwortzeit (Durchschnitt)…
183Gesamte Eingabe-Token…
688Ausgabe-Token…
0Denk-Token…
MiMo-V2-FlashArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
3.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)1.96sAntwortzeit (Maximum)1.96sAntwortzeit (Gesamt)1.96sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…