9.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
9.6Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
Kosten pro Ergebnis
13.118Zeigt die durchschnittlichen Kosten pro korrekter Benchmark-Antwort in Cent an (niedriger ist besser).…
0.000Zeigt die durchschnittlichen Kosten pro korrekter Benchmark-Antwort in Cent an (niedriger ist besser).…
Gesamtkosten
$1.312Gesamtkosten…
$0.000Gesamtkosten…
Korrekte Tests
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zusätzliche Formatierung: 4Falsche Antwort: 2Antwortzeit (Durchschnitt)22.86sAntwortzeit (Maximum)83.40sAntwortzeit (Gesamt)205.71sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 9Anweisungen nicht befolgt: 2Antwortzeit (Durchschnitt)3.15sAntwortzeit (Maximum)8.91sAntwortzeit (Gesamt)50.46sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
Erfolgsquote pro Versuch
66.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
33.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
Instabile Tests
2Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Gesamtläufe
48Gesamtläufe…
48Gesamtläufe…
Ausgabe-Token
26,254Ausgabe-Token…
1,837Ausgabe-Token…
Denk-Token
17,363Denk-Token…
0Denk-Token…
Antwortzeit (Durchschnitt)
22.86sAntwortzeit (Durchschnitt)…
3.15sAntwortzeit (Durchschnitt)…
Antwortzeit (Maximum)
83.40sAntwortzeit (Maximum)…
8.91sAntwortzeit (Maximum)…
Antwortzeit (Gesamt)
205.71sAntwortzeit (Gesamt)…
50.46sAntwortzeit (Gesamt)…
Top-Modelle nach Score
Score vs. Gesamtkosten
Antwortzeit (Durchschnitt)
Ø-Score vs Antwortzeit (Durchschnitt)
Kategorieaufschlüsselung
Anti-KI-Tricks
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Ausgabe-Token
Denk-Token
Anthropic: Claude Opus 4.6
4.0Durchschnittswert über alle Benchmark-Tests.…
4.4Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
55.6%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
2Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zusätzliche Formatierung: 2Antwortzeit (Durchschnitt)11.88sAntwortzeit (Maximum)11.88sAntwortzeit (Gesamt)11.88sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
11.88sAntwortzeit (Durchschnitt)…
897Ausgabe-Token…
1,000Denk-Token…
Trinity Large Preview
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)3.59sAntwortzeit (Maximum)8.17sAntwortzeit (Gesamt)10.78sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
3.59sAntwortzeit (Durchschnitt)…
587Ausgabe-Token…
0Denk-Token…
Kombiniert
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Ausgabe-Token
Denk-Token
Anthropic: Claude Opus 4.6
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)76.66sAntwortzeit (Maximum)76.66sAntwortzeit (Gesamt)76.66sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
76.66sAntwortzeit (Durchschnitt)…
8,178Ausgabe-Token…
5,194Denk-Token…
Trinity Large Preview
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)8.91sAntwortzeit (Maximum)8.91sAntwortzeit (Gesamt)8.91sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
8.91sAntwortzeit (Durchschnitt)…
294Ausgabe-Token…
0Denk-Token…
Datenanalyse und -extraktion
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Ausgabe-Token
Denk-Token
Anthropic: Claude Opus 4.6
9.9Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)7.37sAntwortzeit (Maximum)7.37sAntwortzeit (Gesamt)7.37sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
7.37sAntwortzeit (Durchschnitt)…
691Ausgabe-Token…
757Denk-Token…
Trinity Large Preview
9.9Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.26sAntwortzeit (Maximum)4.66sAntwortzeit (Gesamt)6.52sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
3.26sAntwortzeit (Durchschnitt)…
186Ausgabe-Token…
0Denk-Token…
Domänenspezifisch
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Ausgabe-Token
Denk-Token
Anthropic: Claude Opus 4.6
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zusätzliche Formatierung: 2Falsche Antwort: 1Antwortzeit (Durchschnitt)83.40sAntwortzeit (Maximum)83.40sAntwortzeit (Gesamt)83.40sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
83.40sAntwortzeit (Durchschnitt)…
14,642Ausgabe-Token…
8,687Denk-Token…
Trinity Large Preview
4.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
33.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)877msAntwortzeit (Maximum)894msAntwortzeit (Gesamt)2.63sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
877msAntwortzeit (Durchschnitt)…
25Ausgabe-Token…
0Denk-Token…
Allgemeine Intelligenz
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Ausgabe-Token
Denk-Token
Anthropic: Claude Opus 4.6
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)5.04sAntwortzeit (Maximum)5.04sAntwortzeit (Gesamt)5.04sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
5.04sAntwortzeit (Durchschnitt)…
188Ausgabe-Token…
292Denk-Token…
Trinity Large Preview
3.0Durchschnittswert über alle Benchmark-Tests.…
9.9Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)2.86sAntwortzeit (Maximum)2.86sAntwortzeit (Gesamt)2.86sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
2.86sAntwortzeit (Durchschnitt)…
124Ausgabe-Token…
0Denk-Token…
Befolgung von Anweisungen
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Ausgabe-Token
Denk-Token
Anthropic: Claude Opus 4.6
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.43sAntwortzeit (Maximum)2.43sAntwortzeit (Gesamt)2.43sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
2.43sAntwortzeit (Durchschnitt)…
266Ausgabe-Token…
467Denk-Token…
Trinity Large Preview
3.5Durchschnittswert über alle Benchmark-Tests.…
6.7Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
16.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)1.09sAntwortzeit (Maximum)1.23sAntwortzeit (Gesamt)2.19sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
1.09sAntwortzeit (Durchschnitt)…
63Ausgabe-Token…
0Denk-Token…
Puzzle Solving
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Ausgabe-Token
Denk-Token
Anthropic: Claude Opus 4.6
7.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
66.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)4.60sAntwortzeit (Maximum)4.66sAntwortzeit (Gesamt)9.20sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
4.60sAntwortzeit (Durchschnitt)…
531Ausgabe-Token…
637Denk-Token…
Trinity Large Preview
4.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
33.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)3.30sAntwortzeit (Maximum)4.81sAntwortzeit (Gesamt)9.91sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
3.30sAntwortzeit (Durchschnitt)…
291Ausgabe-Token…
0Denk-Token…
Werkzeugaufrufe
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Ausgabe-Token
Denk-Token
Anthropic: Claude Opus 4.6
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)9.73sAntwortzeit (Maximum)9.73sAntwortzeit (Gesamt)9.73sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
9.73sAntwortzeit (Durchschnitt)…
861Ausgabe-Token…
329Denk-Token…
Trinity Large Preview
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)6.67sAntwortzeit (Maximum)6.67sAntwortzeit (Gesamt)6.67sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…