89Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
90Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
78Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
Kosten pro Ergebnis
6.533Zeigt die durchschnittlichen Kosten pro korrekter Benchmark-Antwort in Cent an (niedriger ist besser).…
4.418Zeigt die durchschnittlichen Kosten pro korrekter Benchmark-Antwort in Cent an (niedriger ist besser).…
3.057Zeigt die durchschnittlichen Kosten pro korrekter Benchmark-Antwort in Cent an (niedriger ist besser).…
Gesamtkosten
$0.784Gesamtkosten…
$0.531Gesamtkosten…
$0.306Gesamtkosten…
Korrekte Tests
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)21.06sAntwortzeit (Maximum)100.41sAntwortzeit (Gesamt)315.95sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)17.37sAntwortzeit (Maximum)100.93sAntwortzeit (Gesamt)260.52sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 2Keine Antwort: 1Zeitüberschreitung: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)16.71sAntwortzeit (Maximum)77.80sAntwortzeit (Gesamt)133.69sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
Erfolgsquote pro Versuch
86.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
88.9%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
80.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
Instabile Tests
2Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
2Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
4Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ausgabe-Token
1,611Ausgabe-Token…
1,577Ausgabe-Token…
2,058Ausgabe-Token…
Denk-Token
46,321Denk-Token…
33,017Denk-Token…
16,542Denk-Token…
Top-Modelle nach Score
Score vs. Gesamtkosten
Kategorieaufschlüsselung
Anti-KI-Tricks
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Ausgabe-Token
Denk-Token
OpenAI: GPT-5.4
100Durchschnittswert über alle Benchmark-Tests.…
100Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)5.02sAntwortzeit (Maximum)6.42sAntwortzeit (Gesamt)15.06sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
216Ausgabe-Token…
1,466Denk-Token…
OpenAI: GPT-5.3-Codex
100Durchschnittswert über alle Benchmark-Tests.…
100Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.69sAntwortzeit (Maximum)6.68sAntwortzeit (Gesamt)14.06sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
216Ausgabe-Token…
1,421Denk-Token…
OpenAI: GPT-5.2
70Durchschnittswert über alle Benchmark-Tests.…
73Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
77.8%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)14.34sAntwortzeit (Maximum)14.34sAntwortzeit (Gesamt)14.34sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
549Ausgabe-Token…
2,002Denk-Token…
Kombiniert
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Ausgabe-Token
Denk-Token
OpenAI: GPT-5.4
100Durchschnittswert über alle Benchmark-Tests.…
100Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)20.57sAntwortzeit (Maximum)20.57sAntwortzeit (Gesamt)20.57sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
301Ausgabe-Token…
3,543Denk-Token…
OpenAI: GPT-5.3-Codex
100Durchschnittswert über alle Benchmark-Tests.…
100Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)19.56sAntwortzeit (Maximum)19.56sAntwortzeit (Gesamt)19.56sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
364Ausgabe-Token…
2,731Denk-Token…
OpenAI: GPT-5.2
100Durchschnittswert über alle Benchmark-Tests.…
100Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)14.06sAntwortzeit (Maximum)14.06sAntwortzeit (Gesamt)14.06sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
291Ausgabe-Token…
1,757Denk-Token…
Datenanalyse und -extraktion
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Ausgabe-Token
Denk-Token
OpenAI: GPT-5.4
99Durchschnittswert über alle Benchmark-Tests.…
100Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)5.32sAntwortzeit (Maximum)5.40sAntwortzeit (Gesamt)10.64sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
234Ausgabe-Token…
804Denk-Token…
OpenAI: GPT-5.3-Codex
99Durchschnittswert über alle Benchmark-Tests.…
100Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.07sAntwortzeit (Maximum)3.59sAntwortzeit (Gesamt)6.15sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
234Ausgabe-Token…
728Denk-Token…
OpenAI: GPT-5.2
99Durchschnittswert über alle Benchmark-Tests.…
100Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.15sAntwortzeit (Maximum)3.15sAntwortzeit (Gesamt)3.15sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
234Ausgabe-Token…
420Denk-Token…
Domänenspezifisch
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Ausgabe-Token
Denk-Token
OpenAI: GPT-5.4
40Durchschnittswert über alle Benchmark-Tests.…
72Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
44.4%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)74.27sAntwortzeit (Maximum)100.41sAntwortzeit (Gesamt)222.80sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
61Ausgabe-Token…
34,748Denk-Token…
OpenAI: GPT-5.3-Codex
40Durchschnittswert über alle Benchmark-Tests.…
72Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
55.6%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)64.31sAntwortzeit (Maximum)100.93sAntwortzeit (Gesamt)192.94sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
64Ausgabe-Token…
25,308Denk-Token…
OpenAI: GPT-5.2
40Durchschnittswert über alle Benchmark-Tests.…
72Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
55.6%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)77.80sAntwortzeit (Maximum)77.80sAntwortzeit (Gesamt)77.80sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
42Ausgabe-Token…
10,342Denk-Token…
Befolgung von Anweisungen
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Ausgabe-Token
Denk-Token
OpenAI: GPT-5.4
100Durchschnittswert über alle Benchmark-Tests.…
100Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.11sAntwortzeit (Maximum)3.68sAntwortzeit (Gesamt)6.22sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
93Ausgabe-Token…
897Denk-Token…
OpenAI: GPT-5.3-Codex
100Durchschnittswert über alle Benchmark-Tests.…
100Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.04sAntwortzeit (Maximum)3.44sAntwortzeit (Gesamt)6.07sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
93Ausgabe-Token…
693Denk-Token…
OpenAI: GPT-5.2
95Durchschnittswert über alle Benchmark-Tests.…
100Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.12sAntwortzeit (Maximum)3.12sAntwortzeit (Gesamt)3.12sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
94Ausgabe-Token…
614Denk-Token…
Puzzle Solving
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Ausgabe-Token
Denk-Token
OpenAI: GPT-5.4
70Durchschnittswert über alle Benchmark-Tests.…
72Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
88.9%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)9.13sAntwortzeit (Maximum)18.14sAntwortzeit (Gesamt)27.39sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
442Ausgabe-Token…
3,832Denk-Token…
OpenAI: GPT-5.3-Codex
93Durchschnittswert über alle Benchmark-Tests.…
79Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
88.9%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)5.12sAntwortzeit (Maximum)8.73sAntwortzeit (Gesamt)15.37sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
352Ausgabe-Token…
1,644Denk-Token…
OpenAI: GPT-5.2
70Durchschnittswert über alle Benchmark-Tests.…
73Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
77.8%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)5.47sAntwortzeit (Maximum)6.45sAntwortzeit (Gesamt)10.94sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
609Ausgabe-Token…
938Denk-Token…
Werkzeugaufrufe
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Ausgabe-Token
Denk-Token
OpenAI: GPT-5.4
100Durchschnittswert über alle Benchmark-Tests.…
100Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)13.28sAntwortzeit (Maximum)13.28sAntwortzeit (Gesamt)13.28sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
264Ausgabe-Token…
1,031Denk-Token…
OpenAI: GPT-5.3-Codex
100Durchschnittswert über alle Benchmark-Tests.…
100Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)6.37sAntwortzeit (Maximum)6.37sAntwortzeit (Gesamt)6.37sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
254Ausgabe-Token…
492Denk-Token…
OpenAI: GPT-5.2
100Durchschnittswert über alle Benchmark-Tests.…
16Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
66.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine Antwort: 1Antwortzeit (Durchschnitt)10.30sAntwortzeit (Maximum)10.30sAntwortzeit (Gesamt)10.30sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…