Nemotron 3 Ultra 550b A55b vs Hunter Alpha Benchmark-Vergleich: Nemotron 3 Ultra 550b A55b führt beim Durchschnittsscore mit 7.5 vs 5.7. Hunter Alpha hat die niedrigeren Benchmark-Kosten mit $0.000 vs $0.177. Hunter Alpha ist schneller mit 4.70s vs 15.05s, mit Erfolgsraten von 69.8% vs 46.3%.
Empfohlenes Modell: Nemotron 3 Ultra 550b A55b - Es hat die stärkste Punktzahl in diesem Vergleich (7.5) und die beste Gesamtbalance aus Kosten und Antwortzeit über alle 2 Modelle.
Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-06-10
Hunter AlphaHunter AlphanoneArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.Veröffentlichung: 2026-03-11
Hunter AlphaHunter AlphanoneArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.Veröffentlichung: 2026-03-11
Punktzahl
7.5Durchschnittswert über alle Benchmark-Tests.…
5.7Durchschnittswert über alle Benchmark-Tests.…
Rang
#42
#117
Zuverlässigkeit
9.7Erfolgswert beim ersten Versuch: 10.0 bedeutet keine wiederholbaren Ziel-API- oder Rate-Limit-Fehler vor erfolgreichen Aufrufen; erfasste Fehler senken den Wert.…
k. A.Erfolgswert beim ersten Versuch: 10.0 bedeutet keine wiederholbaren Ziel-API- oder Rate-Limit-Fehler vor erfolgreichen Aufrufen; erfasste Fehler senken den Wert.…
Konsistenz
8.8Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
8.2Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
Korrekte Tests
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 7API-Fehler: 1Antwortzeit (Durchschnitt)15.05sAntwortzeit (Maximum)43.93sAntwortzeit (Gesamt)316.09sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 9Anweisungen nicht befolgt: 2API-Fehler: 1Antwortzeit (Durchschnitt)4.70sAntwortzeit (Maximum)15.17sAntwortzeit (Gesamt)79.86sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
Erfolgsquote pro Versuch
69.8%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
46.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
Instabile Tests
3Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
4Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Gesamtläufe
63Gesamtläufe…
52Gesamtläufe…
Kosten pro Ergebnis
0.000Zeigt die durchschnittlichen Kosten pro korrekter Benchmark-Antwort in Cent an (niedriger ist besser).…
0.000Zeigt die durchschnittlichen Kosten pro korrekter Benchmark-Antwort in Cent an (niedriger ist besser).…
Gesamtkosten
$0.177Gesamtkosten (aktueller Preis)…
$0.000Gesamtkosten (aktueller Preis)…
Eingabepreis
$0.500 / 1MEingabepreis…
$0.000 / 1MEingabepreis…
Ausgabepreis
$2.500 / 1MAusgabepreis…
$0.000 / 1MAusgabepreis…
Gesamte Eingabe-Token
46,813Gesamte Eingabe-Token…
34,329Gesamte Eingabe-Token…
Ausgabe-Token
18,002Ausgabe-Token…
2,264Ausgabe-Token…
Denk-Token
53,091Denk-Token…
0Denk-Token…
Antwortzeit (Durchschnitt)
15.05sAntwortzeit (Durchschnitt)…
4.70sAntwortzeit (Durchschnitt)…
Antwortzeit (Maximum)
43.93sAntwortzeit (Maximum)…
15.17sAntwortzeit (Maximum)…
Antwortzeit (Gesamt)
316.09sAntwortzeit (Gesamt)…
79.86sAntwortzeit (Gesamt)…
Generation showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
#42 Nemotron 3 Ultra 550b A55b
medium
No showcase result has been generated for this model yet.
Cost
$0.000
Time
-
Tokens
0 tok
#117 Hunter Alpha
none
Hunter Alpha was a stealth model revealed on March 18th as an early testing version of MiMo-V2-Pro. Find it here: https://openrouter.ai/xiaomi/mimo-v2-pro
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)8.62sAntwortzeit (Maximum)16.86sAntwortzeit (Gesamt)34.49sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
8.62sAntwortzeit (Durchschnitt)…
780Gesamte Eingabe-Token…
835Ausgabe-Token…
1,485Denk-Token…
Hunter AlphaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
3.5Durchschnittswert über alle Benchmark-Tests.…
8.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
16.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 4Antwortzeit (Durchschnitt)3.81sAntwortzeit (Maximum)6.85sAntwortzeit (Gesamt)15.23sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
7.4Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
88.9%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)26.53sAntwortzeit (Maximum)31.91sAntwortzeit (Gesamt)79.58sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
26.53sAntwortzeit (Durchschnitt)…
7,686Gesamte Eingabe-Token…
2,854Ausgabe-Token…
17,725Denk-Token…
Hunter AlphaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
3.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Antwortzeit (Durchschnitt)0msAntwortzeit (Maximum)0msAntwortzeit (Gesamt)0msEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)43.93sAntwortzeit (Maximum)43.93sAntwortzeit (Gesamt)43.93sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
43.93sAntwortzeit (Durchschnitt)…
17,574Gesamte Eingabe-Token…
1,040Ausgabe-Token…
3,590Denk-Token…
Hunter AlphaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
3.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)15.17sAntwortzeit (Maximum)15.17sAntwortzeit (Gesamt)15.17sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)5.68sAntwortzeit (Maximum)7.94sAntwortzeit (Gesamt)11.36sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
5.68sAntwortzeit (Durchschnitt)…
7,989Gesamte Eingabe-Token…
473Ausgabe-Token…
1,285Denk-Token…
Hunter AlphaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)8.49sAntwortzeit (Maximum)14.02sAntwortzeit (Gesamt)16.98sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
4.4Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
33.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
2Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)24.90sAntwortzeit (Maximum)34.96sAntwortzeit (Gesamt)74.71sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
24.90sAntwortzeit (Durchschnitt)…
858Gesamte Eingabe-Token…
11,169Ausgabe-Token…
16,249Denk-Token…
Hunter AlphaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
5.3Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
33.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)2.33sAntwortzeit (Maximum)2.94sAntwortzeit (Gesamt)6.99sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
9.5Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Antwortzeit (Durchschnitt)2.52sAntwortzeit (Maximum)2.52sAntwortzeit (Gesamt)2.52sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
2.52sAntwortzeit (Durchschnitt)…
360Gesamte Eingabe-Token…
70Ausgabe-Token…
235Denk-Token…
Hunter AlphaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
6.1Durchschnittswert über alle Benchmark-Tests.…
3.1Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
66.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)2.71sAntwortzeit (Maximum)2.71sAntwortzeit (Gesamt)2.71sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)6.35sAntwortzeit (Maximum)9.38sAntwortzeit (Gesamt)12.69sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
6.35sAntwortzeit (Durchschnitt)…
765Gesamte Eingabe-Token…
182Ausgabe-Token…
1,243Denk-Token…
Hunter AlphaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
6.4Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
50.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)2.82sAntwortzeit (Maximum)2.92sAntwortzeit (Gesamt)5.65sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
9.9Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
33.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)3.54sAntwortzeit (Maximum)6.03sAntwortzeit (Gesamt)10.62sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
3.54sAntwortzeit (Durchschnitt)…
792Gesamte Eingabe-Token…
771Ausgabe-Token…
2,055Denk-Token…
Hunter AlphaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
5.8Durchschnittswert über alle Benchmark-Tests.…
4.4Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
66.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
2Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)3.71sAntwortzeit (Maximum)5.43sAntwortzeit (Gesamt)11.13sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)7.72sAntwortzeit (Maximum)7.72sAntwortzeit (Gesamt)7.72sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
7.72sAntwortzeit (Durchschnitt)…
9,781Gesamte Eingabe-Token…
304Ausgabe-Token…
984Denk-Token…
Hunter AlphaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)6.02sAntwortzeit (Maximum)6.02sAntwortzeit (Gesamt)6.02sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)38.47sAntwortzeit (Maximum)38.47sAntwortzeit (Gesamt)38.47sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
38.47sAntwortzeit (Durchschnitt)…
228Gesamte Eingabe-Token…
304Ausgabe-Token…
8,240Denk-Token…
Hunter AlphaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.