Google: Gemini 3.1 Flash Lite vs Nemotron 3 Ultra 550b A55b
Zusammenfassung
Gemini 3.1 Flash Lite vs Nemotron 3 Ultra 550b A55b Benchmark-Vergleich: Nemotron 3 Ultra 550b A55b führt beim Durchschnittsscore mit 8.1 vs 6.5. Nemotron 3 Ultra 550b A55b hat die niedrigeren Benchmark-Kosten mit $0.158 vs $2.044. Nemotron 3 Ultra 550b A55b ist schneller mit 15.05s vs 61.96s, mit Erfolgsraten von 58.7% vs 69.8%.
Empfohlenes Modell: Nemotron 3 Ultra 550b A55b - Es hat hier die beste Punktzahl (8.1) und kostet etwa 12.9x weniger als Gemini 3.1 Flash Lite.
Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-06-18
Metrik
Gemini 3.1 Flash LiteGemini 3.1 Flash LitehighArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.Veröffentlichung: 2026-05-08
Gemini 3.1 Flash LiteGemini 3.1 Flash LitehighArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.Veröffentlichung: 2026-05-08
10.0Erfolgswert beim ersten Versuch: 10.0 bedeutet keine wiederholbaren Ziel-API- oder Rate-Limit-Fehler vor erfolgreichen Aufrufen; erfasste Fehler senken den Wert.…
9.7Erfolgswert beim ersten Versuch: 10.0 bedeutet keine wiederholbaren Ziel-API- oder Rate-Limit-Fehler vor erfolgreichen Aufrufen; erfasste Fehler senken den Wert.…
Konsistenz
6.8Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
8.8Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
Korrekte Tests
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 4Anweisungen nicht befolgt: 3Keine Antwort: 1Antwortzeit (Durchschnitt)61.96sAntwortzeit (Maximum)149.23sAntwortzeit (Gesamt)1115.31sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 7API-Fehler: 1Antwortzeit (Durchschnitt)15.05sAntwortzeit (Maximum)43.93sAntwortzeit (Gesamt)316.09sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
Erfolgsquote pro Versuch
58.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
69.8%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
Instabile Tests
4Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
3Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Gesamtläufe
54Gesamtläufe…
63Gesamtläufe…
Kosten pro Ergebnis
20.437Zeigt die durchschnittlichen Kosten pro korrekter Benchmark-Antwort in Cent an (niedriger ist besser).…
0.000Zeigt die durchschnittlichen Kosten pro korrekter Benchmark-Antwort in Cent an (niedriger ist besser).…
Gesamtkosten
$2.044Gesamtkosten (aktueller Preis)…
$0.158Gesamtkosten (aktueller Preis)…
Eingabepreis
$0.250 / 1MEingabepreis…
$0.500 / 1MEingabepreis…
Ausgabepreis
$1.500 / 1MAusgabepreis…
$2.200 / 1MAusgabepreis…
Gesamte Eingabe-Token
29,134Gesamte Eingabe-Token…
46,813Gesamte Eingabe-Token…
Ausgabe-Token
1,984Ausgabe-Token…
18,002Ausgabe-Token…
Denk-Token
1,355,583Denk-Token…
53,091Denk-Token…
Antwortzeit (Durchschnitt)
61.96sAntwortzeit (Durchschnitt)…
15.05sAntwortzeit (Durchschnitt)…
Antwortzeit (Maximum)
149.23sAntwortzeit (Maximum)…
43.93sAntwortzeit (Maximum)…
Antwortzeit (Gesamt)
1115.31sAntwortzeit (Gesamt)…
316.09sAntwortzeit (Gesamt)…
Generierungs-Showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
#83 Gemini 3.1 Flash Lite
high
Ungültiges SVG
Kosten
$0.000
Zeit
15.5s
Token
0 tok
#26 Nemotron 3 Ultra 550b A55b
medium
Ungültiges SVG
Kosten
$0.000
Zeit
300.0s
Token
0 tok
Punktzahl
-
Kosten
-
Zeit
-
Token
-
Top-Modelle nach Score
Score vs. Gesamtkosten
Antwortzeit (Durchschnitt)
Punktzahl vs Antwortzeit (Durchschnitt)
Gesamte Ausgabe-Token
Punktzahl vs Gesamte Ausgabe-Token
Kategorieaufschlüsselung
Anti-KI-Tricks
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Eingabe-Token
Ausgabe-Token
Denk-Token
Gemini 3.1 Flash LiteArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
8.7Durchschnittswert über alle Benchmark-Tests.…
9.5Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
75.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)37.16sAntwortzeit (Maximum)140.53sAntwortzeit (Gesamt)148.65sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)8.62sAntwortzeit (Maximum)16.86sAntwortzeit (Gesamt)34.49sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
8.62sAntwortzeit (Durchschnitt)…
780Gesamte Eingabe-Token…
835Ausgabe-Token…
1,485Denk-Token…
Programmierung
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Eingabe-Token
Ausgabe-Token
Denk-Token
Gemini 3.1 Flash LiteArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
3.3Durchschnittswert über alle Benchmark-Tests.…
3.3Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
33.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)137.63sAntwortzeit (Maximum)137.63sAntwortzeit (Gesamt)137.63sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
7.4Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
88.9%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)26.53sAntwortzeit (Maximum)31.91sAntwortzeit (Gesamt)79.58sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
26.53sAntwortzeit (Durchschnitt)…
7,686Gesamte Eingabe-Token…
2,854Ausgabe-Token…
17,725Denk-Token…
Kombiniert
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Eingabe-Token
Ausgabe-Token
Denk-Token
Gemini 3.1 Flash LiteArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)149.23sAntwortzeit (Maximum)149.23sAntwortzeit (Gesamt)149.23sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)43.93sAntwortzeit (Maximum)43.93sAntwortzeit (Gesamt)43.93sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
43.93sAntwortzeit (Durchschnitt)…
17,574Gesamte Eingabe-Token…
1,040Ausgabe-Token…
3,590Denk-Token…
Datenanalyse und -extraktion
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Eingabe-Token
Ausgabe-Token
Denk-Token
Gemini 3.1 Flash LiteArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.49sAntwortzeit (Maximum)4.96sAntwortzeit (Gesamt)8.98sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)5.68sAntwortzeit (Maximum)7.94sAntwortzeit (Gesamt)11.36sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
5.68sAntwortzeit (Durchschnitt)…
7,989Gesamte Eingabe-Token…
473Ausgabe-Token…
1,285Denk-Token…
Domänenspezifisch
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Eingabe-Token
Ausgabe-Token
Denk-Token
Gemini 3.1 Flash LiteArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
3.6Durchschnittswert über alle Benchmark-Tests.…
7.2Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
22.2%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)139.90sAntwortzeit (Maximum)141.40sAntwortzeit (Gesamt)419.69sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
4.4Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
33.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
2Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)24.90sAntwortzeit (Maximum)34.96sAntwortzeit (Gesamt)74.71sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
24.90sAntwortzeit (Durchschnitt)…
858Gesamte Eingabe-Token…
11,169Ausgabe-Token…
16,249Denk-Token…
Allgemeine Intelligenz
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Eingabe-Token
Ausgabe-Token
Denk-Token
Gemini 3.1 Flash LiteArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
5.0Durchschnittswert über alle Benchmark-Tests.…
2.1Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
66.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)45.69sAntwortzeit (Maximum)45.69sAntwortzeit (Gesamt)45.69sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
9.5Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Antwortzeit (Durchschnitt)2.52sAntwortzeit (Maximum)2.52sAntwortzeit (Gesamt)2.52sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
2.52sAntwortzeit (Durchschnitt)…
360Gesamte Eingabe-Token…
70Ausgabe-Token…
235Denk-Token…
Befolgung von Anweisungen
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Eingabe-Token
Ausgabe-Token
Denk-Token
Gemini 3.1 Flash LiteArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
7.3Durchschnittswert über alle Benchmark-Tests.…
5.8Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
83.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine Antwort: 1Antwortzeit (Durchschnitt)23.26sAntwortzeit (Maximum)43.87sAntwortzeit (Gesamt)46.51sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)6.35sAntwortzeit (Maximum)9.38sAntwortzeit (Gesamt)12.69sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
6.35sAntwortzeit (Durchschnitt)…
765Gesamte Eingabe-Token…
182Ausgabe-Token…
1,243Denk-Token…
Rätsellösen
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Eingabe-Token
Ausgabe-Token
Denk-Token
Gemini 3.1 Flash LiteArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
5.7Durchschnittswert über alle Benchmark-Tests.…
6.8Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
44.4%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 2Antwortzeit (Durchschnitt)50.83sAntwortzeit (Maximum)144.85sAntwortzeit (Gesamt)152.49sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
9.9Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
33.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)3.54sAntwortzeit (Maximum)6.03sAntwortzeit (Gesamt)10.62sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
3.54sAntwortzeit (Durchschnitt)…
792Gesamte Eingabe-Token…
771Ausgabe-Token…
2,055Denk-Token…
Werkzeugaufrufe
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Eingabe-Token
Ausgabe-Token
Denk-Token
Gemini 3.1 Flash LiteArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)6.44sAntwortzeit (Maximum)6.44sAntwortzeit (Gesamt)6.44sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)7.72sAntwortzeit (Maximum)7.72sAntwortzeit (Gesamt)7.72sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
7.72sAntwortzeit (Durchschnitt)…
9,781Gesamte Eingabe-Token…
304Ausgabe-Token…
984Denk-Token…
Allgemeinwissen
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Eingabe-Token
Ausgabe-Token
Denk-Token
Gemini 3.1 Flash LiteArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
0.0Durchschnittswert über alle Benchmark-Tests.…
0.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)0msAntwortzeit (Maximum)0msAntwortzeit (Gesamt)0msEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)38.47sAntwortzeit (Maximum)38.47sAntwortzeit (Gesamt)38.47sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…