10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
9.1Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
Kosten pro Ergebnis
1.477Zeigt die durchschnittlichen Kosten pro korrekter Benchmark-Antwort in Cent an (niedriger ist besser).…
2.440Zeigt die durchschnittlichen Kosten pro korrekter Benchmark-Antwort in Cent an (niedriger ist besser).…
Gesamtkosten
$0.192Gesamtkosten…
$0.269Gesamtkosten…
Korrekte Tests
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)7.15sAntwortzeit (Maximum)11.96sAntwortzeit (Gesamt)64.34sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 4Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)7.03sAntwortzeit (Maximum)38.52sAntwortzeit (Gesamt)112.51sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
Erfolgsquote pro Versuch
81.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
75.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
Instabile Tests
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
2Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
common.totalRuns
48 (16 x 3)common.totalRuns…
48 (16 x 3)common.totalRuns…
Ausgabe-Token
1,502Ausgabe-Token…
15,845Ausgabe-Token…
Denk-Token
9,706Denk-Token…
0Denk-Token…
Antwortzeit (Durchschnitt)
7.15sAntwortzeit (Durchschnitt)…
7.03sAntwortzeit (Durchschnitt)…
Antwortzeit (Maximum)
11.96sAntwortzeit (Maximum)…
38.52sAntwortzeit (Maximum)…
Antwortzeit (Gesamt)
64.34sAntwortzeit (Gesamt)…
112.51sAntwortzeit (Gesamt)…
Top-Modelle nach Score
Score vs. Gesamtkosten
Antwortzeit (Durchschnitt)
Ø-Score vs Antwortzeit (Durchschnitt)
Kategorieaufschlüsselung
Anti-KI-Tricks
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Ausgabe-Token
Denk-Token
Google: Gemini 3 Pro Preview
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.75sAntwortzeit (Maximum)3.75sAntwortzeit (Gesamt)3.75sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
3.75sAntwortzeit (Durchschnitt)…
143Ausgabe-Token…
1,107Denk-Token…
OpenAI: GPT-5.2 Chat
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.97sAntwortzeit (Maximum)4.78sAntwortzeit (Gesamt)11.90sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
3.97sAntwortzeit (Durchschnitt)…
1,651Ausgabe-Token…
0Denk-Token…
Kombiniert
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Ausgabe-Token
Denk-Token
Google: Gemini 3 Pro Preview
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)10.37sAntwortzeit (Maximum)10.37sAntwortzeit (Gesamt)10.37sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.37sAntwortzeit (Durchschnitt)…
351Ausgabe-Token…
952Denk-Token…
OpenAI: GPT-5.2 Chat
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)9.12sAntwortzeit (Maximum)9.12sAntwortzeit (Gesamt)9.12sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
9.12sAntwortzeit (Durchschnitt)…
1,243Ausgabe-Token…
0Denk-Token…
Datenanalyse und -extraktion
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Ausgabe-Token
Denk-Token
Google: Gemini 3 Pro Preview
9.9Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)10.84sAntwortzeit (Maximum)10.84sAntwortzeit (Gesamt)10.84sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.84sAntwortzeit (Durchschnitt)…
279Ausgabe-Token…
3,156Denk-Token…
OpenAI: GPT-5.2 Chat
9.9Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.05sAntwortzeit (Maximum)3.33sAntwortzeit (Gesamt)6.10sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
3.05sAntwortzeit (Durchschnitt)…
980Ausgabe-Token…
0Denk-Token…
Domänenspezifisch
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Ausgabe-Token
Denk-Token
Google: Gemini 3 Pro Preview
4.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
33.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)7.01sAntwortzeit (Maximum)7.01sAntwortzeit (Gesamt)7.01sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
7.01sAntwortzeit (Durchschnitt)…
15Ausgabe-Token…
1,195Denk-Token…
OpenAI: GPT-5.2 Chat
4.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
33.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)17.78sAntwortzeit (Maximum)38.52sAntwortzeit (Gesamt)53.33sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
17.78sAntwortzeit (Durchschnitt)…
7,810Ausgabe-Token…
0Denk-Token…
Allgemeine Intelligenz
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Ausgabe-Token
Denk-Token
Google: Gemini 3 Pro Preview
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)9.34sAntwortzeit (Maximum)9.34sAntwortzeit (Gesamt)9.34sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
9.34sAntwortzeit (Durchschnitt)…
78Ausgabe-Token…
374Denk-Token…
OpenAI: GPT-5.2 Chat
4.0Durchschnittswert über alle Benchmark-Tests.…
3.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
33.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)3.20sAntwortzeit (Maximum)3.20sAntwortzeit (Gesamt)3.20sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
3.20sAntwortzeit (Durchschnitt)…
335Ausgabe-Token…
0Denk-Token…
Befolgung von Anweisungen
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Ausgabe-Token
Denk-Token
Google: Gemini 3 Pro Preview
9.5Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.26sAntwortzeit (Maximum)3.26sAntwortzeit (Gesamt)3.26sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
3.26sAntwortzeit (Durchschnitt)…
69Ausgabe-Token…
754Denk-Token…
OpenAI: GPT-5.2 Chat
6.0Durchschnittswert über alle Benchmark-Tests.…
6.1Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
83.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)5.46sAntwortzeit (Maximum)6.45sAntwortzeit (Gesamt)10.92sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
5.46sAntwortzeit (Durchschnitt)…
1,528Ausgabe-Token…
0Denk-Token…
Puzzle Solving
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Ausgabe-Token
Denk-Token
Google: Gemini 3 Pro Preview
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.91sAntwortzeit (Maximum)4.23sAntwortzeit (Gesamt)7.81sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
3.91sAntwortzeit (Durchschnitt)…
243Ausgabe-Token…
1,197Denk-Token…
OpenAI: GPT-5.2 Chat
7.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
66.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)4.42sAntwortzeit (Maximum)5.04sAntwortzeit (Gesamt)13.27sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
4.42sAntwortzeit (Durchschnitt)…
1,743Ausgabe-Token…
0Denk-Token…
Werkzeugaufrufe
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Ausgabe-Token
Denk-Token
Google: Gemini 3 Pro Preview
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)11.96sAntwortzeit (Maximum)11.96sAntwortzeit (Gesamt)11.96sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
11.96sAntwortzeit (Durchschnitt)…
324Ausgabe-Token…
971Denk-Token…
OpenAI: GPT-5.2 Chat
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.68sAntwortzeit (Maximum)4.68sAntwortzeit (Gesamt)4.68sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…