Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Anweisungen nicht befolgt: 1Keine Antwort: 1Zeitüberschreitung: 1Antwortzeit (Durchschnitt)69.84sAntwortzeit (Maximum)137.29sAntwortzeit (Gesamt)558.72sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 8Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)1.46sAntwortzeit (Maximum)2.89sAntwortzeit (Gesamt)21.86sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
Konsistenz
7.8Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
8.9Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
Kosten pro Ergebnis
2.082Zeigt die durchschnittlichen Kosten pro korrekter Benchmark-Antwort in Cent an (niedriger ist besser).…
1.496Zeigt die durchschnittlichen Kosten pro korrekter Benchmark-Antwort in Cent an (niedriger ist besser).…
Gesamtkosten
$0.188Gesamtkosten…
$0.090Gesamtkosten…
Erfolgsquote pro Versuch
73.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
44.4%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
Instabile Tests
4Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
2Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
common.totalRuns
45 (15 x 3)common.totalRuns…
45 (15 x 3)common.totalRuns…
Ausgabe-Token
34,638Ausgabe-Token…
1,635Ausgabe-Token…
Denk-Token
68,234Denk-Token…
0Denk-Token…
Antwortzeit (Durchschnitt)
69.84sAntwortzeit (Durchschnitt)…
1.46sAntwortzeit (Durchschnitt)…
Antwortzeit (Maximum)
137.29sAntwortzeit (Maximum)…
2.89sAntwortzeit (Maximum)…
Antwortzeit (Gesamt)
558.72sAntwortzeit (Gesamt)…
21.86sAntwortzeit (Gesamt)…
Top-Modelle nach Score
Score vs. Gesamtkosten
Antwortzeit (Durchschnitt)
Ø-Score vs Antwortzeit (Durchschnitt)
Kategorieaufschlüsselung
Anti-KI-Tricks
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Ausgabe-Token
Denk-Token
MoonshotAI: Kimi K2.5
7.0Durchschnittswert über alle Benchmark-Tests.…
7.2Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
88.9%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine Antwort: 1Antwortzeit (Durchschnitt)85.28sAntwortzeit (Maximum)85.28sAntwortzeit (Gesamt)85.28sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
85.28sAntwortzeit (Durchschnitt)…
335Ausgabe-Token…
6,255Denk-Token…
OpenAI: GPT-5.4
10.0Durchschnittswert über alle Benchmark-Tests.…
7.3Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
11.1%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)1.41sAntwortzeit (Maximum)2.58sAntwortzeit (Gesamt)4.23sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
1.41sAntwortzeit (Durchschnitt)…
388Ausgabe-Token…
0Denk-Token…
Kombiniert
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Ausgabe-Token
Denk-Token
MoonshotAI: Kimi K2.5
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)71.37sAntwortzeit (Maximum)71.37sAntwortzeit (Gesamt)71.37sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
71.37sAntwortzeit (Durchschnitt)…
703Ausgabe-Token…
3,713Denk-Token…
OpenAI: GPT-5.4
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)2.89sAntwortzeit (Maximum)2.89sAntwortzeit (Gesamt)2.89sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
2.89sAntwortzeit (Durchschnitt)…
291Ausgabe-Token…
0Denk-Token…
Datenanalyse und -extraktion
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Ausgabe-Token
Denk-Token
MoonshotAI: Kimi K2.5
9.9Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)49.78sAntwortzeit (Maximum)49.78sAntwortzeit (Gesamt)49.78sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
49.78sAntwortzeit (Durchschnitt)…
563Ausgabe-Token…
7,940Denk-Token…
OpenAI: GPT-5.4
9.9Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.04sAntwortzeit (Maximum)1.06sAntwortzeit (Gesamt)2.08sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
1.04sAntwortzeit (Durchschnitt)…
222Ausgabe-Token…
0Denk-Token…
Domänenspezifisch
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Ausgabe-Token
Denk-Token
MoonshotAI: Kimi K2.5
10.0Durchschnittswert über alle Benchmark-Tests.…
4.4Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
33.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
2Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Zeitüberschreitung: 1Antwortzeit (Durchschnitt)137.29sAntwortzeit (Maximum)137.29sAntwortzeit (Gesamt)137.29sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
137.29sAntwortzeit (Durchschnitt)…
20,753Ausgabe-Token…
30,564Denk-Token…
OpenAI: GPT-5.4
4.0Durchschnittswert über alle Benchmark-Tests.…
7.2Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
44.4%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)1.07sAntwortzeit (Maximum)1.54sAntwortzeit (Gesamt)3.22sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
1.07sAntwortzeit (Durchschnitt)…
50Ausgabe-Token…
0Denk-Token…
Befolgung von Anweisungen
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Ausgabe-Token
Denk-Token
MoonshotAI: Kimi K2.5
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)92.47sAntwortzeit (Maximum)92.47sAntwortzeit (Gesamt)92.47sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
92.47sAntwortzeit (Durchschnitt)…
5,371Ausgabe-Token…
6,547Denk-Token…
OpenAI: GPT-5.4
5.5Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
50.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)1.07sAntwortzeit (Maximum)1.17sAntwortzeit (Gesamt)2.15sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
1.07sAntwortzeit (Durchschnitt)…
81Ausgabe-Token…
0Denk-Token…
Puzzle Solving
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Ausgabe-Token
Denk-Token
MoonshotAI: Kimi K2.5
4.0Durchschnittswert über alle Benchmark-Tests.…
7.3Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
44.4%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)45.40sAntwortzeit (Maximum)82.75sAntwortzeit (Gesamt)90.79sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
45.40sAntwortzeit (Durchschnitt)…
6,671Ausgabe-Token…
12,403Denk-Token…
OpenAI: GPT-5.4
4.0Durchschnittswert über alle Benchmark-Tests.…
9.8Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
33.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)1.52sAntwortzeit (Maximum)1.82sAntwortzeit (Gesamt)4.56sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
1.52sAntwortzeit (Durchschnitt)…
357Ausgabe-Token…
0Denk-Token…
Werkzeugaufrufe
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Ausgabe-Token
Denk-Token
MoonshotAI: Kimi K2.5
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)31.74sAntwortzeit (Maximum)31.74sAntwortzeit (Gesamt)31.74sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
31.74sAntwortzeit (Durchschnitt)…
242Ausgabe-Token…
812Denk-Token…
OpenAI: GPT-5.4
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.75sAntwortzeit (Maximum)2.75sAntwortzeit (Gesamt)2.75sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…