9.45Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
8.26Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
10.00Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
Kosten pro Ergebnis
2.261Zeigt die durchschnittlichen Kosten pro korrekter Benchmark-Antwort in Cent an (niedriger ist besser).…
2.835Zeigt die durchschnittlichen Kosten pro korrekter Benchmark-Antwort in Cent an (niedriger ist besser).…
0.151Zeigt die durchschnittlichen Kosten pro korrekter Benchmark-Antwort in Cent an (niedriger ist besser).…
Gesamtkosten
$0.227Gesamtkosten…
$0.256Gesamtkosten…
$0.016Gesamtkosten…
Korrekte Tests
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)7.16sAntwortzeit (Maximum)38.52sAntwortzeit (Gesamt)100.19sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Anweisungen nicht befolgt: 2Antwortzeit (Durchschnitt)5.81sAntwortzeit (Maximum)18.33sAntwortzeit (Gesamt)81.36sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)2.88sAntwortzeit (Maximum)9.54sAntwortzeit (Gesamt)40.39sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
Erfolgsquote pro Versuch
73.8%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
73.8%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
71.4%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
Instabile Tests
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
3Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ausgabe-Token
14,267Ausgabe-Token…
16,339Ausgabe-Token…
1,317Ausgabe-Token…
Denk-Token
0Denk-Token…
0Denk-Token…
6,126Denk-Token…
Top-Modelle nach Score
Score vs. Gesamtkosten
Kategorieaufschlüsselung
Anti-KI-Tricks
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Ausgabe-Token
Denk-Token
OpenAI: GPT-5.2 Chat
10.00Durchschnittswert über alle Benchmark-Tests.…
10.00Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.97sAntwortzeit (Maximum)4.78sAntwortzeit (Gesamt)11.90sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
1,651Ausgabe-Token…
0Denk-Token…
OpenAI: GPT-5.3 Chat
7.33Durchschnittswert über alle Benchmark-Tests.…
7.49Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
77.8%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)4.72sAntwortzeit (Maximum)7.35sAntwortzeit (Gesamt)14.17sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
3,091Ausgabe-Token…
0Denk-Token…
Google: Gemini 3.1 Flash Lite Preview
7.00Durchschnittswert über alle Benchmark-Tests.…
10.00Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
66.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)2.18sAntwortzeit (Maximum)3.18sAntwortzeit (Gesamt)6.53sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
456Ausgabe-Token…
1,224Denk-Token…
Datenanalyse und -extraktion
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Ausgabe-Token
Denk-Token
OpenAI: GPT-5.2 Chat
9.88Durchschnittswert über alle Benchmark-Tests.…
10.00Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.05sAntwortzeit (Maximum)3.33sAntwortzeit (Gesamt)6.10sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
980Ausgabe-Token…
0Denk-Token…
OpenAI: GPT-5.3 Chat
9.88Durchschnittswert über alle Benchmark-Tests.…
10.00Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.21sAntwortzeit (Maximum)2.52sAntwortzeit (Gesamt)4.42sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
942Ausgabe-Token…
0Denk-Token…
Google: Gemini 3.1 Flash Lite Preview
9.88Durchschnittswert über alle Benchmark-Tests.…
10.00Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.00sAntwortzeit (Maximum)3.74sAntwortzeit (Gesamt)5.99sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
291Ausgabe-Token…
696Denk-Token…
Domänenspezifisch
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Ausgabe-Token
Denk-Token
OpenAI: GPT-5.2 Chat
4.00Durchschnittswert über alle Benchmark-Tests.…
10.00Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
33.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)17.78sAntwortzeit (Maximum)38.52sAntwortzeit (Gesamt)53.33sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
7,810Ausgabe-Token…
0Denk-Token…
OpenAI: GPT-5.3 Chat
1.00Durchschnittswert über alle Benchmark-Tests.…
4.41Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
33.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
2Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)13.01sAntwortzeit (Maximum)18.33sAntwortzeit (Gesamt)39.04sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
8,264Ausgabe-Token…
0Denk-Token…
Google: Gemini 3.1 Flash Lite Preview
4.00Durchschnittswert über alle Benchmark-Tests.…
10.00Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
33.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)2.36sAntwortzeit (Maximum)3.51sAntwortzeit (Gesamt)7.07sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
18Ausgabe-Token…
1,212Denk-Token…
Befolgung von Anweisungen
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Ausgabe-Token
Denk-Token
OpenAI: GPT-5.2 Chat
5.50Durchschnittswert über alle Benchmark-Tests.…
6.13Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
66.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)5.46sAntwortzeit (Maximum)6.45sAntwortzeit (Gesamt)10.92sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
1,528Ausgabe-Token…
0Denk-Token…
OpenAI: GPT-5.3 Chat
8.50Durchschnittswert über alle Benchmark-Tests.…
9.99Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
50.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)3.29sAntwortzeit (Maximum)4.18sAntwortzeit (Gesamt)6.59sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
1,455Ausgabe-Token…
0Denk-Token…
Google: Gemini 3.1 Flash Lite Preview
8.50Durchschnittswert über alle Benchmark-Tests.…
10.00Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
50.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)1.49sAntwortzeit (Maximum)1.66sAntwortzeit (Gesamt)2.99sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
72Ausgabe-Token…
753Denk-Token…
Puzzle Solving
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Ausgabe-Token
Denk-Token
OpenAI: GPT-5.2 Chat
7.00Durchschnittswert über alle Benchmark-Tests.…
10.00Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
66.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)4.42sAntwortzeit (Maximum)5.04sAntwortzeit (Gesamt)13.27sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
1,743Ausgabe-Token…
0Denk-Token…
OpenAI: GPT-5.3 Chat
10.00Durchschnittswert über alle Benchmark-Tests.…
10.00Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.93sAntwortzeit (Maximum)3.05sAntwortzeit (Gesamt)8.78sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
1,726Ausgabe-Token…
0Denk-Token…
Google: Gemini 3.1 Flash Lite Preview
10.00Durchschnittswert über alle Benchmark-Tests.…
10.00Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.76sAntwortzeit (Maximum)5.08sAntwortzeit (Gesamt)8.27sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
243Ausgabe-Token…
1,248Denk-Token…
Werkzeugaufrufe
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Ausgabe-Token
Denk-Token
OpenAI: GPT-5.2 Chat
10.00Durchschnittswert über alle Benchmark-Tests.…
10.00Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.68sAntwortzeit (Maximum)4.68sAntwortzeit (Gesamt)4.68sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
555Ausgabe-Token…
0Denk-Token…
OpenAI: GPT-5.3 Chat
10.00Durchschnittswert über alle Benchmark-Tests.…
10.00Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)8.36sAntwortzeit (Maximum)8.36sAntwortzeit (Gesamt)8.36sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
861Ausgabe-Token…
0Denk-Token…
Google: Gemini 3.1 Flash Lite Preview
10.00Durchschnittswert über alle Benchmark-Tests.…
10.00Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)9.54sAntwortzeit (Maximum)9.54sAntwortzeit (Gesamt)9.54sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…