10.00Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
10.00Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
9.99Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
9.44Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
Kosten pro Ergebnis
0.162Zeigt die durchschnittlichen Kosten pro korrekter Benchmark-Antwort in Cent an (niedriger ist besser).…
0.403Zeigt die durchschnittlichen Kosten pro korrekter Benchmark-Antwort in Cent an (niedriger ist besser).…
17.455Zeigt die durchschnittlichen Kosten pro korrekter Benchmark-Antwort in Cent an (niedriger ist besser).…
0.624Zeigt die durchschnittlichen Kosten pro korrekter Benchmark-Antwort in Cent an (niedriger ist besser).…
Gesamtkosten
$0.017Gesamtkosten…
$0.037Gesamtkosten…
$1.920Gesamtkosten…
$0.069Gesamtkosten…
Korrekte Tests
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 4Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)2.89sAntwortzeit (Maximum)9.54sAntwortzeit (Gesamt)43.35sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 4Anweisungen nicht befolgt: 2Antwortzeit (Durchschnitt)3.74sAntwortzeit (Maximum)12.98sAntwortzeit (Gesamt)56.15sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)69.85sAntwortzeit (Maximum)232.25sAntwortzeit (Gesamt)1047.79sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)6.32sAntwortzeit (Maximum)14.72sAntwortzeit (Gesamt)94.86sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
Erfolgsquote pro Versuch
66.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
60.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
73.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
75.6%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
Instabile Tests
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ausgabe-Token
1,392Ausgabe-Token…
1,417Ausgabe-Token…
943Ausgabe-Token…
1,274Ausgabe-Token…
Denk-Token
6,379Denk-Token…
19,435Denk-Token…
1,275,768Denk-Token…
18,372Denk-Token…
Top-Modelle nach Score
Score vs. Gesamtkosten
Kategorieaufschlüsselung
Anti-KI-Tricks
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Ausgabe-Token
Denk-Token
Google: Gemini 3.1 Flash Lite Preview
7.00Durchschnittswert über alle Benchmark-Tests.…
10.00Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
66.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)2.18sAntwortzeit (Maximum)3.18sAntwortzeit (Gesamt)6.53sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
456Ausgabe-Token…
1,224Denk-Token…
Google: Gemini 3.1 Flash Lite Preview
9.00Durchschnittswert über alle Benchmark-Tests.…
9.99Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
66.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)2.53sAntwortzeit (Maximum)3.89sAntwortzeit (Gesamt)7.58sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
564Ausgabe-Token…
3,780Denk-Token…
Google: Gemini 3.1 Flash Lite Preview
10.00Durchschnittswert über alle Benchmark-Tests.…
10.00Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)43.87sAntwortzeit (Maximum)121.88sAntwortzeit (Gesamt)131.62sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
144Ausgabe-Token…
193,077Denk-Token…
Google: Gemini 3 Flash Preview
10.00Durchschnittswert über alle Benchmark-Tests.…
10.00Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.50sAntwortzeit (Maximum)4.31sAntwortzeit (Gesamt)10.49sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
275Ausgabe-Token…
2,476Denk-Token…
Kombiniert
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Ausgabe-Token
Denk-Token
Google: Gemini 3.1 Flash Lite Preview
1.00Durchschnittswert über alle Benchmark-Tests.…
10.00Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)2.96sAntwortzeit (Maximum)2.96sAntwortzeit (Gesamt)2.96sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
75Ausgabe-Token…
253Denk-Token…
Google: Gemini 3.1 Flash Lite Preview
10.00Durchschnittswert über alle Benchmark-Tests.…
10.00Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)12.98sAntwortzeit (Maximum)12.98sAntwortzeit (Gesamt)12.98sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
109Ausgabe-Token…
2,449Denk-Token…
Google: Gemini 3.1 Flash Lite Preview
10.00Durchschnittswert über alle Benchmark-Tests.…
10.00Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)232.25sAntwortzeit (Maximum)232.25sAntwortzeit (Gesamt)232.25sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
112Ausgabe-Token…
126,813Denk-Token…
Google: Gemini 3 Flash Preview
1.00Durchschnittswert über alle Benchmark-Tests.…
10.00Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)2.96sAntwortzeit (Maximum)2.96sAntwortzeit (Gesamt)2.96sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
104Ausgabe-Token…
0Denk-Token…
Datenanalyse und -extraktion
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Ausgabe-Token
Denk-Token
Google: Gemini 3.1 Flash Lite Preview
9.88Durchschnittswert über alle Benchmark-Tests.…
10.00Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.00sAntwortzeit (Maximum)3.74sAntwortzeit (Gesamt)5.99sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
291Ausgabe-Token…
696Denk-Token…
Google: Gemini 3.1 Flash Lite Preview
9.88Durchschnittswert über alle Benchmark-Tests.…
10.00Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.29sAntwortzeit (Maximum)2.31sAntwortzeit (Gesamt)4.59sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
279Ausgabe-Token…
2,952Denk-Token…
Google: Gemini 3.1 Flash Lite Preview
9.88Durchschnittswert über alle Benchmark-Tests.…
10.00Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)7.16sAntwortzeit (Maximum)8.54sAntwortzeit (Gesamt)14.31sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
279Ausgabe-Token…
6,186Denk-Token…
Google: Gemini 3 Flash Preview
10.00Durchschnittswert über alle Benchmark-Tests.…
10.00Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)9.46sAntwortzeit (Maximum)14.72sAntwortzeit (Gesamt)18.92sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
305Ausgabe-Token…
3,004Denk-Token…
Domänenspezifisch
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Ausgabe-Token
Denk-Token
Google: Gemini 3.1 Flash Lite Preview
4.00Durchschnittswert über alle Benchmark-Tests.…
10.00Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
33.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)2.36sAntwortzeit (Maximum)3.51sAntwortzeit (Gesamt)7.07sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
18Ausgabe-Token…
1,212Denk-Token…
Google: Gemini 3.1 Flash Lite Preview
1.00Durchschnittswert über alle Benchmark-Tests.…
10.00Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)4.21sAntwortzeit (Maximum)5.86sAntwortzeit (Gesamt)12.62sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
18Ausgabe-Token…
5,325Denk-Token…
Google: Gemini 3.1 Flash Lite Preview
4.00Durchschnittswert über alle Benchmark-Tests.…
10.00Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
33.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)127.58sAntwortzeit (Maximum)133.93sAntwortzeit (Gesamt)382.74sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
18Ausgabe-Token…
566,202Denk-Token…
Google: Gemini 3 Flash Preview
4.00Durchschnittswert über alle Benchmark-Tests.…
7.21Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
44.4%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)8.05sAntwortzeit (Maximum)14.40sAntwortzeit (Gesamt)24.15sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
12Ausgabe-Token…
6,410Denk-Token…
Befolgung von Anweisungen
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Ausgabe-Token
Denk-Token
Google: Gemini 3.1 Flash Lite Preview
8.50Durchschnittswert über alle Benchmark-Tests.…
10.00Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
50.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)1.49sAntwortzeit (Maximum)1.66sAntwortzeit (Gesamt)2.99sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
72Ausgabe-Token…
753Denk-Token…
Google: Gemini 3.1 Flash Lite Preview
8.00Durchschnittswert über alle Benchmark-Tests.…
9.99Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
50.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)1.91sAntwortzeit (Maximum)1.93sAntwortzeit (Gesamt)3.82sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
72Ausgabe-Token…
2,121Denk-Token…
Google: Gemini 3.1 Flash Lite Preview
8.00Durchschnittswert über alle Benchmark-Tests.…
9.96Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
50.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)70.07sAntwortzeit (Maximum)136.53sAntwortzeit (Gesamt)140.14sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
69Ausgabe-Token…
190,053Denk-Token…
Google: Gemini 3 Flash Preview
7.50Durchschnittswert über alle Benchmark-Tests.…
9.99Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
50.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)7.02sAntwortzeit (Maximum)7.35sAntwortzeit (Gesamt)14.03sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
71Ausgabe-Token…
2,752Denk-Token…
Puzzle Solving
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Ausgabe-Token
Denk-Token
Google: Gemini 3.1 Flash Lite Preview
10.00Durchschnittswert über alle Benchmark-Tests.…
10.00Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.76sAntwortzeit (Maximum)5.08sAntwortzeit (Gesamt)8.27sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
243Ausgabe-Token…
1,248Denk-Token…
Google: Gemini 3.1 Flash Lite Preview
7.00Durchschnittswert über alle Benchmark-Tests.…
10.00Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
66.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)3.58sAntwortzeit (Maximum)4.41sAntwortzeit (Gesamt)10.75sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
141Ausgabe-Token…
1,896Denk-Token…
Google: Gemini 3.1 Flash Lite Preview
7.00Durchschnittswert über alle Benchmark-Tests.…
10.00Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
66.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)46.33sAntwortzeit (Maximum)134.22sAntwortzeit (Gesamt)139.00sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
87Ausgabe-Token…
190,953Denk-Token…
Google: Gemini 3 Flash Preview
10.00Durchschnittswert über alle Benchmark-Tests.…
10.00Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)6.44sAntwortzeit (Maximum)10.27sAntwortzeit (Gesamt)19.32sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
273Ausgabe-Token…
3,315Denk-Token…
Werkzeugaufrufe
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Ausgabe-Token
Denk-Token
Google: Gemini 3.1 Flash Lite Preview
10.00Durchschnittswert über alle Benchmark-Tests.…
10.00Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)9.54sAntwortzeit (Maximum)9.54sAntwortzeit (Gesamt)9.54sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
237Ausgabe-Token…
993Denk-Token…
Google: Gemini 3.1 Flash Lite Preview
10.00Durchschnittswert über alle Benchmark-Tests.…
10.00Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.80sAntwortzeit (Maximum)3.80sAntwortzeit (Gesamt)3.80sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
234Ausgabe-Token…
912Denk-Token…
Google: Gemini 3.1 Flash Lite Preview
10.00Durchschnittswert über alle Benchmark-Tests.…
10.00Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)7.73sAntwortzeit (Maximum)7.73sAntwortzeit (Gesamt)7.73sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
234Ausgabe-Token…
2,484Denk-Token…
Google: Gemini 3 Flash Preview
10.00Durchschnittswert über alle Benchmark-Tests.…
10.00Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.99sAntwortzeit (Maximum)4.99sAntwortzeit (Gesamt)4.99sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…