Anthropic: Claude Opus 4.7 vs Tencent: Hy3 preview
Zusammenfassung
Claude Opus 4.7 vs Hy3 preview Benchmark-Vergleich: Claude Opus 4.7 führt beim Durchschnittsscore mit 7.4 vs 6.8. Hy3 preview hat die niedrigeren Benchmark-Kosten mit $0.059 vs $0.505. Claude Opus 4.7 ist schneller mit 3.02s vs 56.57s, mit Erfolgsraten von 76.2% vs 55.6%.
Empfohlenes Modell: Claude Opus 4.7 - Es hat hier die beste Punktzahl (7.4) und antwortet etwa 18.7x schneller als Hy3 preview.
Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-06-18
Metrik
Claude Opus 4.7Claude Opus 4.7noneArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.Veröffentlichung: 2026-04-16
Hy3 previewHy3 previewhighArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.Veröffentlichung: 2026-04-22
Metrik
Claude Opus 4.7Claude Opus 4.7noneArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.Veröffentlichung: 2026-04-16
Hy3 previewHy3 previewhighArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.Veröffentlichung: 2026-04-22
Punktzahl
7.4Durchschnittswert über alle Benchmark-Tests.…
6.8Durchschnittswert über alle Benchmark-Tests.…
Rang
#49
#74
Zuverlässigkeit
10.0Erfolgswert beim ersten Versuch: 10.0 bedeutet keine wiederholbaren Ziel-API- oder Rate-Limit-Fehler vor erfolgreichen Aufrufen; erfasste Fehler senken den Wert.…
10.0Erfolgswert beim ersten Versuch: 10.0 bedeutet keine wiederholbaren Ziel-API- oder Rate-Limit-Fehler vor erfolgreichen Aufrufen; erfasste Fehler senken den Wert.…
Konsistenz
9.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
9.2Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
Korrekte Tests
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)3.02sAntwortzeit (Maximum)18.27sAntwortzeit (Gesamt)57.44sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 7Falsche Antwort: 3Antwortzeit (Durchschnitt)56.57sAntwortzeit (Maximum)149.94sAntwortzeit (Gesamt)848.59sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
Erfolgsquote pro Versuch
76.2%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
55.6%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
Instabile Tests
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
2Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Gesamtläufe
57Gesamtläufe…
63Gesamtläufe…
Kosten pro Ergebnis
3.154Zeigt die durchschnittlichen Kosten pro korrekter Benchmark-Antwort in Cent an (niedriger ist besser).…
0.000Zeigt die durchschnittlichen Kosten pro korrekter Benchmark-Antwort in Cent an (niedriger ist besser).…
Gesamtkosten
$0.505Gesamtkosten (aktueller Preis)…
$0.059Gesamtkosten (aktueller Preis)…
Eingabepreis
$5.000 / 1MEingabepreis…
$0.066 / 1MEingabepreis…
Ausgabepreis
$25.000 / 1MAusgabepreis…
$0.260 / 1MAusgabepreis…
Gesamte Eingabe-Token
69,576Gesamte Eingabe-Token…
25,987Gesamte Eingabe-Token…
Ausgabe-Token
6,265Ausgabe-Token…
216,719Ausgabe-Token…
Denk-Token
0Denk-Token…
0Denk-Token…
Antwortzeit (Durchschnitt)
3.02sAntwortzeit (Durchschnitt)…
56.57sAntwortzeit (Durchschnitt)…
Antwortzeit (Maximum)
18.27sAntwortzeit (Maximum)…
149.94sAntwortzeit (Maximum)…
Antwortzeit (Gesamt)
57.44sAntwortzeit (Gesamt)…
848.59sAntwortzeit (Gesamt)…
Generierungs-Showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
#49 Claude Opus 4.7
none
Kosten
$0.051
Zeit
24.2s
Token
2,181 tok
#74 Hy3 preview
high
Hy3 preview is no longer available as a free model. It has transitioned to a paid model. Continue using it here: https://openrouter.ai/tencent/hy3-preview
Kosten
$0.000
Zeit
0.0s
Token
0 tok
Punktzahl
-
Kosten
-
Zeit
-
Token
-
Top-Modelle nach Score
Score vs. Gesamtkosten
Antwortzeit (Durchschnitt)
Punktzahl vs Antwortzeit (Durchschnitt)
Gesamte Ausgabe-Token
Punktzahl vs Gesamte Ausgabe-Token
Kategorieaufschlüsselung
Anti-KI-Tricks
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Eingabe-Token
Ausgabe-Token
Denk-Token
Claude Opus 4.7Archiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
8.3Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
75.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)2.12sAntwortzeit (Maximum)3.75sAntwortzeit (Gesamt)8.50sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
2.12sAntwortzeit (Durchschnitt)…
894Gesamte Eingabe-Token…
522Ausgabe-Token…
0Denk-Token…
Hy3 previewArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
6.4Durchschnittswert über alle Benchmark-Tests.…
7.9Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
58.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 2Antwortzeit (Durchschnitt)15.12sAntwortzeit (Maximum)19.99sAntwortzeit (Gesamt)45.37sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
15.12sAntwortzeit (Durchschnitt)…
373Gesamte Eingabe-Token…
6,839Ausgabe-Token…
0Denk-Token…
Programmierung
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Eingabe-Token
Ausgabe-Token
Denk-Token
Claude Opus 4.7Archiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
3.3Durchschnittswert über alle Benchmark-Tests.…
3.3Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
33.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.84sAntwortzeit (Maximum)2.84sAntwortzeit (Gesamt)2.84sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
2.84sAntwortzeit (Durchschnitt)…
1,176Gesamte Eingabe-Token…
494Ausgabe-Token…
0Denk-Token…
Hy3 previewArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
5.3Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
33.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 2Antwortzeit (Durchschnitt)99.76sAntwortzeit (Maximum)99.76sAntwortzeit (Gesamt)99.76sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
99.76sAntwortzeit (Durchschnitt)…
741Gesamte Eingabe-Token…
38,167Ausgabe-Token…
0Denk-Token…
Kombiniert
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Eingabe-Token
Ausgabe-Token
Denk-Token
Claude Opus 4.7Archiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
9.5Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)18.27sAntwortzeit (Maximum)18.27sAntwortzeit (Gesamt)18.27sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
18.27sAntwortzeit (Durchschnitt)…
37,740Gesamte Eingabe-Token…
3,504Ausgabe-Token…
0Denk-Token…
Hy3 previewArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)113.09sAntwortzeit (Maximum)113.09sAntwortzeit (Gesamt)113.09sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
113.09sAntwortzeit (Durchschnitt)…
13,119Gesamte Eingabe-Token…
31,319Ausgabe-Token…
0Denk-Token…
Datenanalyse und -extraktion
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Eingabe-Token
Ausgabe-Token
Denk-Token
Claude Opus 4.7Archiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.15sAntwortzeit (Maximum)2.33sAntwortzeit (Gesamt)4.29sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
2.15sAntwortzeit (Durchschnitt)…
10,533Gesamte Eingabe-Token…
324Ausgabe-Token…
0Denk-Token…
Hy3 previewArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
6.5Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
50.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Antwortzeit (Durchschnitt)12.11sAntwortzeit (Maximum)12.11sAntwortzeit (Gesamt)12.11sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
12.11sAntwortzeit (Durchschnitt)…
2,316Gesamte Eingabe-Token…
4,323Ausgabe-Token…
0Denk-Token…
Domänenspezifisch
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Eingabe-Token
Ausgabe-Token
Denk-Token
Claude Opus 4.7Archiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
7.7Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
66.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)1.19sAntwortzeit (Maximum)1.40sAntwortzeit (Gesamt)3.58sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
1.19sAntwortzeit (Durchschnitt)…
1,020Gesamte Eingabe-Token…
78Ausgabe-Token…
0Denk-Token…
Hy3 previewArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
5.3Durchschnittswert über alle Benchmark-Tests.…
7.2Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
44.4%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)109.04sAntwortzeit (Maximum)149.94sAntwortzeit (Gesamt)327.11sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
109.04sAntwortzeit (Durchschnitt)…
747Gesamte Eingabe-Token…
87,559Ausgabe-Token…
0Denk-Token…
Allgemeine Intelligenz
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Eingabe-Token
Ausgabe-Token
Denk-Token
Claude Opus 4.7Archiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.47sAntwortzeit (Maximum)3.47sAntwortzeit (Gesamt)3.47sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
3.47sAntwortzeit (Durchschnitt)…
723Gesamte Eingabe-Token…
257Ausgabe-Token…
0Denk-Token…
Hy3 previewArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
3.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Antwortzeit (Durchschnitt)0msAntwortzeit (Maximum)0msAntwortzeit (Gesamt)0msEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
0msAntwortzeit (Durchschnitt)…
0Gesamte Eingabe-Token…
0Ausgabe-Token…
0Denk-Token…
Befolgung von Anweisungen
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Eingabe-Token
Ausgabe-Token
Denk-Token
Claude Opus 4.7Archiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.46sAntwortzeit (Maximum)1.68sAntwortzeit (Gesamt)2.91sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
1.46sAntwortzeit (Durchschnitt)…
939Gesamte Eingabe-Token…
114Ausgabe-Token…
0Denk-Token…
Hy3 previewArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)34.36sAntwortzeit (Maximum)41.83sAntwortzeit (Gesamt)68.73sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
34.36sAntwortzeit (Durchschnitt)…
675Gesamte Eingabe-Token…
13,483Ausgabe-Token…
0Denk-Token…
Rätsellösen
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Eingabe-Token
Ausgabe-Token
Denk-Token
Claude Opus 4.7Archiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.46sAntwortzeit (Maximum)3.72sAntwortzeit (Gesamt)7.38sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
2.46sAntwortzeit (Durchschnitt)…
939Gesamte Eingabe-Token…
597Ausgabe-Token…
0Denk-Token…
Hy3 previewArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
7.7Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
66.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Antwortzeit (Durchschnitt)27.94sAntwortzeit (Maximum)45.06sAntwortzeit (Gesamt)55.89sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
27.94sAntwortzeit (Durchschnitt)…
390Gesamte Eingabe-Token…
15,567Ausgabe-Token…
0Denk-Token…
Werkzeugaufrufe
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Eingabe-Token
Ausgabe-Token
Denk-Token
Claude Opus 4.7Archiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.74sAntwortzeit (Maximum)4.74sAntwortzeit (Gesamt)4.74sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
4.74sAntwortzeit (Durchschnitt)…
15,339Gesamte Eingabe-Token…
372Ausgabe-Token…
0Denk-Token…
Hy3 previewArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)78.83sAntwortzeit (Maximum)78.83sAntwortzeit (Gesamt)78.83sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
78.83sAntwortzeit (Durchschnitt)…
7,410Gesamte Eingabe-Token…
10,370Ausgabe-Token…
0Denk-Token…
Allgemeinwissen
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Eingabe-Token
Ausgabe-Token
Denk-Token
Claude Opus 4.7Archiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
3.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)1.46sAntwortzeit (Maximum)1.46sAntwortzeit (Gesamt)1.46sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
1.46sAntwortzeit (Durchschnitt)…
273Gesamte Eingabe-Token…
3Ausgabe-Token…
0Denk-Token…
Hy3 previewArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
3.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)47.71sAntwortzeit (Maximum)47.71sAntwortzeit (Gesamt)47.71sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…