MiniMax M2.5 vs Nemotron 3 Super Benchmark-Vergleich: MiniMax M2.5 führt beim Durchschnittsscore mit 5.3 vs 4.9. Nemotron 3 Super hat die niedrigeren Benchmark-Kosten mit $0.007 vs $0.303. Nemotron 3 Super ist schneller mit 5.30s vs 65.37s, mit Erfolgsraten von 46.0% vs 31.8%.
Empfohlenes Modell: Nemotron 3 Super - Die Punktzahl bleibt nah an der besten hier (4.9 vs 5.3) und es kostet etwa 49.8x weniger als MiniMax M2.5.
Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-06-10
10.0Erfolgswert beim ersten Versuch: 10.0 bedeutet keine wiederholbaren Ziel-API- oder Rate-Limit-Fehler vor erfolgreichen Aufrufen; erfasste Fehler senken den Wert.…
10.0Erfolgswert beim ersten Versuch: 10.0 bedeutet keine wiederholbaren Ziel-API- oder Rate-Limit-Fehler vor erfolgreichen Aufrufen; erfasste Fehler senken den Wert.…
Konsistenz
6.5Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
8.8Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 14Anweisungen nicht befolgt: 2Antwortzeit (Durchschnitt)5.30sAntwortzeit (Maximum)16.45sAntwortzeit (Gesamt)111.31sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
Erfolgsquote pro Versuch
46.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
31.8%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
Instabile Tests
9Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
3Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Gesamtläufe
63Gesamtläufe…
63Gesamtläufe…
Kosten pro Ergebnis
7.900Zeigt die durchschnittlichen Kosten pro korrekter Benchmark-Antwort in Cent an (niedriger ist besser).…
0.034Zeigt die durchschnittlichen Kosten pro korrekter Benchmark-Antwort in Cent an (niedriger ist besser).…
Gesamtkosten
$0.303Gesamtkosten (aktueller Preis)…
$0.007Gesamtkosten (aktueller Preis)…
Eingabepreis
$0.150 / 1MEingabepreis…
$0.090 / 1MEingabepreis…
Ausgabepreis
$0.900 / 1MAusgabepreis…
$0.450 / 1MAusgabepreis…
Gesamte Eingabe-Token
43,706Gesamte Eingabe-Token…
36,456Gesamte Eingabe-Token…
Ausgabe-Token
109,495Ausgabe-Token…
6,195Ausgabe-Token…
Denk-Token
330,814Denk-Token…
0Denk-Token…
Antwortzeit (Durchschnitt)
65.37sAntwortzeit (Durchschnitt)…
5.30sAntwortzeit (Durchschnitt)…
Antwortzeit (Maximum)
251.36sAntwortzeit (Maximum)…
16.45sAntwortzeit (Maximum)…
Antwortzeit (Gesamt)
849.76sAntwortzeit (Gesamt)…
111.31sAntwortzeit (Gesamt)…
Generation showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
#130 MiniMax M2.5
medium
Invalid SVG
Cost
$0.000
Time
300.0s
Tokens
0 tok
#142 Nemotron 3 Super
none
No showcase result has been generated for this model yet.
6.3Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
83.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
2Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Zeitüberschreitung: 1Antwortzeit (Durchschnitt)20.82sAntwortzeit (Maximum)32.42sAntwortzeit (Gesamt)41.63sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
25.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)4.46sAntwortzeit (Maximum)9.94sAntwortzeit (Gesamt)17.83sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
9.1Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine Antwort: 1Zeitüberschreitung: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)188.58sAntwortzeit (Maximum)251.36sAntwortzeit (Gesamt)377.16sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
7.2Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
11.1%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)2.64sAntwortzeit (Maximum)3.05sAntwortzeit (Gesamt)7.92sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
2.1Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
66.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Ungültiger Werkzeugaufruf: 1Antwortzeit (Durchschnitt)60.39sAntwortzeit (Maximum)60.39sAntwortzeit (Gesamt)60.39sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)16.45sAntwortzeit (Maximum)16.45sAntwortzeit (Gesamt)16.45sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
1.7Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
66.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
2Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)7.48sAntwortzeit (Maximum)7.48sAntwortzeit (Gesamt)7.48sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)7.92sAntwortzeit (Maximum)13.23sAntwortzeit (Gesamt)15.84sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
4.4Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
22.2%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
2Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Zeitüberschreitung: 1Antwortzeit (Durchschnitt)237.27sAntwortzeit (Maximum)237.27sAntwortzeit (Gesamt)237.27sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
7.2Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
22.2%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)6.23sAntwortzeit (Maximum)14.38sAntwortzeit (Gesamt)18.70sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
2.5Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
33.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)6.63sAntwortzeit (Maximum)6.63sAntwortzeit (Gesamt)6.63sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)950msAntwortzeit (Maximum)950msAntwortzeit (Gesamt)950msEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
50.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)621msAntwortzeit (Maximum)621msAntwortzeit (Gesamt)621msEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
50.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)804msAntwortzeit (Maximum)921msAntwortzeit (Gesamt)1.61sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
7.2Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
44.4%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)11.21sAntwortzeit (Maximum)17.37sAntwortzeit (Gesamt)22.43sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
33.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)2.36sAntwortzeit (Maximum)3.27sAntwortzeit (Gesamt)7.07sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)15.35sAntwortzeit (Maximum)15.35sAntwortzeit (Gesamt)15.35sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
1.6Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
66.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)16.00sAntwortzeit (Maximum)16.00sAntwortzeit (Gesamt)16.00sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)80.79sAntwortzeit (Maximum)80.79sAntwortzeit (Gesamt)80.79sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)8.94sAntwortzeit (Maximum)8.94sAntwortzeit (Gesamt)8.94sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…