Gemini 3.5 Flash vs Hunter Alpha Benchmark-Vergleich: Gemini 3.5 Flash führt beim Durchschnittsscore mit 9.4 vs 6.7. Hunter Alpha hat die niedrigeren Benchmark-Kosten mit $0.000 vs $0.349. Gemini 3.5 Flash ist schneller mit 3.27s vs 10.33s, mit Erfolgsraten von 90.5% vs 64.8%.
Empfohlenes Modell: Gemini 3.5 Flash - Es hat hier die beste Punktzahl (9.4) und antwortet etwa 3.2x schneller als Hunter Alpha.
Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-06-10
Hunter AlphaHunter AlphamediumArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.Veröffentlichung: 2026-03-11
Hunter AlphaHunter AlphamediumArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.Veröffentlichung: 2026-03-11
Punktzahl
9.4Durchschnittswert über alle Benchmark-Tests.…
6.7Durchschnittswert über alle Benchmark-Tests.…
Rang
#3
#80
Zuverlässigkeit
10.0Erfolgswert beim ersten Versuch: 10.0 bedeutet keine wiederholbaren Ziel-API- oder Rate-Limit-Fehler vor erfolgreichen Aufrufen; erfasste Fehler senken den Wert.…
k. A.Erfolgswert beim ersten Versuch: 10.0 bedeutet keine wiederholbaren Ziel-API- oder Rate-Limit-Fehler vor erfolgreichen Aufrufen; erfasste Fehler senken den Wert.…
Konsistenz
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
7.4Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
Korrekte Tests
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)3.27sAntwortzeit (Maximum)9.05sAntwortzeit (Gesamt)68.65sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
90.5%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
64.8%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
Instabile Tests
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
6Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Gesamtläufe
63Gesamtläufe…
52Gesamtläufe…
Kosten pro Ergebnis
1.834Zeigt die durchschnittlichen Kosten pro korrekter Benchmark-Antwort in Cent an (niedriger ist besser).…
0.000Zeigt die durchschnittlichen Kosten pro korrekter Benchmark-Antwort in Cent an (niedriger ist besser).…
Gesamtkosten
$0.349Gesamtkosten (aktueller Preis)…
$0.000Gesamtkosten (aktueller Preis)…
Eingabepreis
$1.500 / 1MEingabepreis…
$0.000 / 1MEingabepreis…
Ausgabepreis
$9.000 / 1MAusgabepreis…
$0.000 / 1MAusgabepreis…
Gesamte Eingabe-Token
36,938Gesamte Eingabe-Token…
28,927Gesamte Eingabe-Token…
Ausgabe-Token
2,033Ausgabe-Token…
4,682Ausgabe-Token…
Denk-Token
30,519Denk-Token…
17,969Denk-Token…
Antwortzeit (Durchschnitt)
3.27sAntwortzeit (Durchschnitt)…
10.33sAntwortzeit (Durchschnitt)…
Antwortzeit (Maximum)
9.05sAntwortzeit (Maximum)…
30.53sAntwortzeit (Maximum)…
Antwortzeit (Gesamt)
68.65sAntwortzeit (Gesamt)…
175.58sAntwortzeit (Gesamt)…
Generation showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
#3 Gemini 3.5 Flash
low
Cost
$0.068
Time
39.1s
Tokens
7,588 tok
#80 Hunter Alpha
medium
Hunter Alpha was a stealth model revealed on March 18th as an early testing version of MiMo-V2-Pro. Find it here: https://openrouter.ai/xiaomi/mimo-v2-pro
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.52sAntwortzeit (Maximum)5.40sAntwortzeit (Gesamt)10.08sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
2.52sAntwortzeit (Durchschnitt)…
494Gesamte Eingabe-Token…
209Ausgabe-Token…
2,536Denk-Token…
Hunter AlphaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
7.3Durchschnittswert über alle Benchmark-Tests.…
5.8Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
83.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
2Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)4.75sAntwortzeit (Maximum)7.62sAntwortzeit (Gesamt)19.00sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
66.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)6.71sAntwortzeit (Maximum)9.05sAntwortzeit (Gesamt)20.13sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
6.71sAntwortzeit (Durchschnitt)…
8,118Gesamte Eingabe-Token…
458Ausgabe-Token…
13,420Denk-Token…
Hunter AlphaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
3.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Antwortzeit (Durchschnitt)0msAntwortzeit (Maximum)0msAntwortzeit (Gesamt)0msEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)6.44sAntwortzeit (Maximum)6.44sAntwortzeit (Gesamt)6.44sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
6.44sAntwortzeit (Durchschnitt)…
12,873Gesamte Eingabe-Token…
351Ausgabe-Token…
3,050Denk-Token…
Hunter AlphaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
4.7Durchschnittswert über alle Benchmark-Tests.…
1.6Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
66.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Antwortzeit (Durchschnitt)30.53sAntwortzeit (Maximum)30.53sAntwortzeit (Gesamt)30.53sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.81sAntwortzeit (Maximum)2.32sAntwortzeit (Gesamt)3.63sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
1.81sAntwortzeit (Durchschnitt)…
7,548Gesamte Eingabe-Token…
279Ausgabe-Token…
1,164Denk-Token…
Hunter AlphaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)23.16sAntwortzeit (Maximum)26.55sAntwortzeit (Gesamt)46.33sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
66.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)3.39sAntwortzeit (Maximum)4.44sAntwortzeit (Gesamt)10.16sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
3.39sAntwortzeit (Durchschnitt)…
633Gesamte Eingabe-Token…
12Ausgabe-Token…
4,538Denk-Token…
Hunter AlphaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
3.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zusätzliche Formatierung: 1Zeitüberschreitung: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)10.52sAntwortzeit (Maximum)18.68sAntwortzeit (Gesamt)31.56sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.27sAntwortzeit (Maximum)2.27sAntwortzeit (Gesamt)2.27sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
2.27sAntwortzeit (Durchschnitt)…
486Gesamte Eingabe-Token…
119Ausgabe-Token…
916Denk-Token…
Hunter AlphaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
7.0Durchschnittswert über alle Benchmark-Tests.…
3.7Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
66.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)6.44sAntwortzeit (Maximum)6.44sAntwortzeit (Gesamt)6.44sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.86sAntwortzeit (Maximum)2.10sAntwortzeit (Gesamt)3.73sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
1.86sAntwortzeit (Durchschnitt)…
615Gesamte Eingabe-Token…
71Ausgabe-Token…
1,652Denk-Token…
Hunter AlphaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
9.9Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.18sAntwortzeit (Maximum)4.46sAntwortzeit (Gesamt)8.36sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.35sAntwortzeit (Maximum)3.25sAntwortzeit (Gesamt)7.06sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
2.35sAntwortzeit (Durchschnitt)…
558Gesamte Eingabe-Token…
288Ausgabe-Token…
2,150Denk-Token…
Hunter AlphaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
6.1Durchschnittswert über alle Benchmark-Tests.…
4.7Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
66.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
2Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)5.35sAntwortzeit (Maximum)6.20sAntwortzeit (Gesamt)16.06sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.27sAntwortzeit (Maximum)3.27sAntwortzeit (Gesamt)3.27sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
3.27sAntwortzeit (Durchschnitt)…
5,457Gesamte Eingabe-Token…
234Ausgabe-Token…
403Denk-Token…
Hunter AlphaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)17.33sAntwortzeit (Maximum)17.33sAntwortzeit (Gesamt)17.33sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.88sAntwortzeit (Maximum)1.88sAntwortzeit (Gesamt)1.88sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
1.88sAntwortzeit (Durchschnitt)…
156Gesamte Eingabe-Token…
12Ausgabe-Token…
690Denk-Token…
Hunter AlphaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.