#87

MiniMax M2.7

Minimax Veröffentlichung: 2026-03-18 Getestet am: 2026-04-11 01:44 minimax/minimax-m2.7::medium

Zusammenfassung

MiniMax M2.7 erreicht 5.3 bei AI BENCHY und liegt auf #87. Das Modell hat k. A. Zuverlässigkeit, 51.9% Erfolgsrate, $0.091 Gesamtkosten und 31.08s durchschnittliche Antwortzeit.

Was MiniMax M2.7 besonders macht: Am stärksten ist es in Programmierung, wo es #1 erreicht; am schwächsten ist Datenanalyse und -extraktion mit #18.

Punktzahl

5.3

Konsistenz

5.5

Zuverlässigkeit

k. A.

Gesamtkosten (aktueller Preis)

$0.091

Gesamte Ausgabe-Token

67,771

Gesamte Eingabe-Token

Eingabepreis

$0.300 / 1M

Ausgabepreis

$1.200 / 1M

Korrekte Tests

Falsche Tests: 14

Erfolgsquote pro Versuch: 51.9%

Instabile Tests

Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).

Antwortzeit (Durchschnitt)

31.08s

Antwortzeit (Maximum): 117.04s

Antwortzeit (Gesamt): 528.37s

Anweisungen nicht befolgt: 6 Falsche Antwort: 5 Zeitüberschreitung: 2 Ungültiger Werkzeugaufruf: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#87 MiniMax M2.7

medium

Kosten: $0.022
Zeit: 22.8s
Token: 9,250 tok

Testverlauf

Getestet am	Punktzahl	Zuverlässigkeit	Gesamtkosten	Vergleichen
2026-07-16 21:18 Neuer Test hinzugefügt	5.0	10.0	$0.196	Vergleichen
2026-06-04 13:26 Neuer Test hinzugefügt	5.3	7.8	$0.124 ↓	Vergleichen
2026-05-21 23:52 Suite geändert	5.0	8.3	$0.104	Vergleichen
2026-04-11 01:44 Erster erfasster Lauf	5.3	k. A.	$0.091	Aktueller Lauf

Laufvergleich

Lauf	Benchmark-Abdeckung	Punktzahl	Konsistenz	Zuverlässigkeit	Korrekte Tests	Instabile Tests	Gesamte Ausgabe-Token	Gesamte Eingabe-Token	Gesamtkosten	Antwortzeit (Durchschnitt)
2026-04-11 01:44 · Erster erfasster Lauf	18/18 Tests · 54/54 Versuche	5.3	5.5	k. A.	4/18	10	67,771	0	$0.091	31.08s
2026-06-04 13:26 · Neuer Test hinzugefügt	21/21 Tests · 63/63 Versuche	5.3	6.5	7.8	5/21	9	98,793	34,371	$0.124	38.18s
Differenz	—	0.0	-1.0		-1	+1	-31022	-34371	-$0.034	-7100ms

Die Benchmark-Abdeckung unterscheidet sich: 18/18 Tests · 54/54 Versuche (Ziel: 3 Wiederholungen pro Test) gegenüber 21/21 Tests · 63/63 Versuche (Ziel: 3 Wiederholungen pro Test). Summen und wiederholungsabhängige Metriken sind nicht direkt vergleichbar.

Diese beiden Läufe nutzten unterschiedliche Benchmark-Suiten, daher spiegeln die Deltas sowohl Modell- als auch Suite-Änderungen wider.

Diagramme

Wähle zuerst das erste Modell und klicke dann ein zweites Modell, um eine Seite im direkten Vergleich zu öffnen.

Top-Modelle nach Score

Punktzahl vs Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Schnellvergleich

MiniMax M2.7mediumvsNorth Mini CodenoneKostenlos verfügbar MiniMax M2.7mediumvsLaguna S 2.1lowKostenlos verfügbar MiniMax M2.7mediumvsQwen3.5-9Bnone MiniMax M2.7mediumvsDeepSeek V3.2none MiniMax M2.7mediumvsMiMo-V2.5none MiniMax M2.7mediumvsGPT-4o-mininone MiniMax M2.7mediumvsMistral Small 4medium MiniMax M2.7mediumvsGLM 4.7 Flashnone MiniMax M2.7mediumvsQwen3 Coder Nextnone MiniMax M2.7mediumvsNemotron 3 SupernoneKostenlos verfügbar

Kategorieaufschlüsselung

Kategorie	Punktzahl	Konsistenz
Anti-KI-Tricks	7.9	6.3
Programmierung	10.0	10.0
Kombiniert	4.7	1.6
Datenanalyse und -extraktion	6.3	5.8
Domänenspezifisch	3.0	10.0
Allgemeine Intelligenz	3.9	2.5
Befolgung von Anweisungen	3.7	1.8
Rätsellösen	3.8	4.5
Werkzeugaufrufe	4.7	1.6

MiniMax M2.7

Hamster playing table tennis

#87 MiniMax M2.7

Diagramme

Top-Modelle nach Score

Punktzahl vs Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Schnellvergleich

Kategorieaufschlüsselung

Verglichene Modelle