#133

MiniMax M2.7

Minimax Veröffentlichung: 2026-03-18 Getestet am: 2026-05-21 23:52 minimax/minimax-m2.7::medium

Zusammenfassung

MiniMax M2.7 erreicht 5.0 bei AI BENCHY und liegt auf #133. Das Modell hat 8.3 Zuverlässigkeit, 46.7% Erfolgsrate, $0.104 Gesamtkosten und 29.96s durchschnittliche Antwortzeit.

Was MiniMax M2.7 besonders macht: Am stärksten ist es in Programmierung, wo es #1 erreicht; am schwächsten ist Datenanalyse und -extraktion mit #16.

Punktzahl

5.0

Konsistenz

5.9

Zuverlässigkeit

8.3

Gesamtkosten (aktueller Preis)

$0.104

Gesamte Ausgabe-Token

81,525

Gesamte Eingabe-Token

Eingabepreis

$0.279 / 1M

Ausgabepreis

$1.200 / 1M

Korrekte Tests

Falsche Tests: 16

Erfolgsquote pro Versuch: 46.7%

Instabile Tests

Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).

Antwortzeit (Durchschnitt)

29.96s

Antwortzeit (Maximum): 117.04s

Antwortzeit (Gesamt): 569.33s

Falsche Antwort: 7 Anweisungen nicht befolgt: 5 Zeitüberschreitung: 2 Ungültiger Werkzeugaufruf: 1 Keine Antwort: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#133 MiniMax M2.7

medium

Kosten: $0.022
Zeit: 22.8s
Token: 9,250 tok

Testverlauf

Getestet am	Punktzahl	Zuverlässigkeit	Gesamtkosten	Vergleichen
2026-07-16 21:18 Neuer Test hinzugefügt	5.0	10.0	$0.196	Vergleichen
2026-06-04 13:26 Neuer Test hinzugefügt	5.3	7.8	$0.124 ↓	Vergleichen
2026-05-21 23:52 Suite geändert	5.0	8.3	$0.104	Aktueller Lauf
2026-04-11 01:44 Erster erfasster Lauf	5.3	k. A.	$0.091	Vergleichen

Dieser Lauf nutzte eine andere Benchmark-Suite. Berücksichtige Suite-Änderungen bei der historischen Einordnung.

Laufvergleich

Lauf	Benchmark-Abdeckung	Punktzahl	Konsistenz	Zuverlässigkeit	Korrekte Tests	Instabile Tests	Gesamte Ausgabe-Token	Gesamte Eingabe-Token	Gesamtkosten	Antwortzeit (Durchschnitt)
2026-05-21 23:52 · Suite geändert	20/20 Tests · 60/60 Versuche	5.0	5.9	8.3	4/20	10	81,525	0	$0.104	29.96s
2026-06-04 13:26 · Neuer Test hinzugefügt	21/21 Tests · 63/63 Versuche	5.3	6.5	7.8	5/21	9	98,793	34,371	$0.124	38.18s
Differenz	—	-0.2	-0.6	+0.5	-1	+1	-17268	-34371	-$0.021	-8215ms

Die Benchmark-Abdeckung unterscheidet sich: 20/20 Tests · 60/60 Versuche (Ziel: 3 Wiederholungen pro Test) gegenüber 21/21 Tests · 63/63 Versuche (Ziel: 3 Wiederholungen pro Test). Summen und wiederholungsabhängige Metriken sind nicht direkt vergleichbar.

Diese beiden Läufe nutzten unterschiedliche Benchmark-Suiten, daher spiegeln die Deltas sowohl Modell- als auch Suite-Änderungen wider.

Diagramme

Wähle zuerst das erste Modell und klicke dann ein zweites Modell, um eine Seite im direkten Vergleich zu öffnen.

Top-Modelle nach Score

Punktzahl vs Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Schnellvergleich

MiniMax M2.7mediumvsNorth Mini CodenoneKostenlos verfügbar MiniMax M2.7mediumvsLaguna S 2.1lowKostenlos verfügbar MiniMax M2.7mediumvsQwen3.5-9Bnone MiniMax M2.7mediumvsDeepSeek V3.2none MiniMax M2.7mediumvsMiMo-V2.5none MiniMax M2.7mediumvsGPT-4o-mininone MiniMax M2.7mediumvsMistral Small 4medium MiniMax M2.7mediumvsGLM 4.7 Flashnone MiniMax M2.7mediumvsQwen3 Coder Nextnone MiniMax M2.7mediumvsNemotron 3 SupernoneKostenlos verfügbar

Kategorieaufschlüsselung

Kategorie	Punktzahl	Konsistenz
Anti-KI-Tricks	7.9	6.3
Programmierung	6.7	9.6
Kombiniert	4.7	1.6
Datenanalyse und -extraktion	6.3	5.8
Domänenspezifisch	3.0	10.0
Allgemeine Intelligenz	3.9	2.5
Befolgung von Anweisungen	3.8	1.6
Rätsellösen	3.5	4.4
Werkzeugaufrufe	4.7	1.6
Allgemeinwissen	3.0	10.0

MiniMax M2.7

Hamster playing table tennis

#133 MiniMax M2.7

Diagramme

Top-Modelle nach Score

Punktzahl vs Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Schnellvergleich

Kategorieaufschlüsselung

Verglichene Modelle