AI BENCHY Compare

Anthropic: Claude Opus 4.6 vs Anthropic: Claude Opus 4.8

Zusammenfassung

Claude Opus 4.6 vs Claude Opus 4.8 Benchmark-Vergleich: Der Durchschnittsscore ist mit 7.7 vs 7.7 praktisch gleichauf. Claude Opus 4.8 hat die niedrigeren Benchmark-Kosten mit $1.270 vs $2.053. Claude Opus 4.8 ist schneller mit 10.83s vs 25.89s, mit Erfolgsraten von 61.9% vs 79.4%.

Empfohlenes Modell: Claude Opus 4.8 - Es hat hier die beste Punktzahl (7.7) und kostet etwa 1.6x weniger als Claude Opus 4.6.

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-06-30

Metrik	Claude Opus 4.6 Claude Opus 4.6 medium Veröffentlichung: 2026-02-05	Claude Opus 4.8 Claude Opus 4.8 low Veröffentlichung: 2026-05-28

Metrik	Claude Opus 4.6 Claude Opus 4.6 medium Veröffentlichung: 2026-02-05	Claude Opus 4.8 Claude Opus 4.8 low Veröffentlichung: 2026-05-28
Punktzahl	7.7	7.7
Rang	#40	#38
Zuverlässigkeit	10.0	10.0
Konsistenz	8.8	8.8
Korrekte Tests
Erfolgsquote pro Versuch	61.9%	79.4%
Instabile Tests	3	3
Gesamtläufe	63	63
Kosten pro Ergebnis	17.103	8.466
Gesamtkosten	$2.053	$1.270
Eingabepreis	$5.000 / 1M	$5.000 / 1M
Ausgabepreis	$25.000 / 1M	$25.000 / 1M
Gesamte Eingabe-Token	53,227	60,946
Ausgabe-Token	47,446	31,771
Denk-Token	24,000	6,831
Antwortzeit (Durchschnitt)	25.89s	10.83s
Antwortzeit (Maximum)	83.40s	127.97s
Antwortzeit (Gesamt)	362.49s	227.39s

Generierungs-Showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#40 Claude Opus 4.6

medium

Ungültiges SVG

Kosten: $0.000
Zeit: 300.0s
Token: 0 tok

#38 Claude Opus 4.8

low

Kosten: $0.031
Zeit: 14.1s
Token: 1,345 tok

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Opus 4.6	6.4	5.8	66.7%	2		7.45s	840	986	1,071
Claude Opus 4.8	10.0	10.0	100.0%	0		3.30s	834	793	371

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Opus 4.6	5.7	7.1	44.4%	1		30.10s	8,522	13,057	4,121
Claude Opus 4.8	6.6	4.6	77.8%	2		7.58s	10,590	3,637	809

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Opus 4.6	10.0	10.0	100.0%	0		76.66s	20,685	8,178	5,194
Claude Opus 4.8	9.8	10.0	100.0%	0		20.84s	23,500	2,216	1,081

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Opus 4.6	10.0	10.0	100.0%	0		7.37s	8,676	691	757
Claude Opus 4.8	6.3	5.8	66.7%	1		2.27s	10,503	310	0

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Opus 4.6	3.0	10.0	0.0%	0		83.40s	674	14,642	8,687
Claude Opus 4.8	5.3	10.0	33.3%	0		45.53s	975	23,311	3,908

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Opus 4.6	10.0	10.0	100.0%	0		5.04s	564	188	292
Claude Opus 4.8	10.0	10.0	100.0%	0		2.55s	708	231	0

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Opus 4.6	10.0	10.0	100.0%	0		2.43s	792	266	467
Claude Opus 4.8	9.8	10.0	100.0%	0		2.78s	909	111	221

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Opus 4.6	7.7	10.0	66.7%	0		4.71s	816	532	630
Claude Opus 4.8	10.0	10.0	100.0%	0		3.01s	894	592	184

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Opus 4.6	10.0	10.0	100.0%	0		9.73s	11,454	861	329
Claude Opus 4.8	10.0	10.0	100.0%	0		6.85s	11,775	370	35

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Opus 4.6	3.0	10.0	0.0%	0		63.24s	204	8,045	2,452
Claude Opus 4.8	3.0	10.0	0.0%	0		5.48s	258	200	222

Schnellvergleich

Vergleichspaar wechseln

Claude Opus 4.8lowvsQwen3.5-122B-A10Bmedium Claude Opus 4.6mediumvsStep 3.7 Flashlow Claude Opus 4.8lowvsKimi K2.6mediumKostenlos verfügbar Claude Opus 4.8lowvsGrok 4.3medium Claude Opus 4.8lowvsGemini 3.1 Flash Litemedium Claude Opus 4.8lowvsQwen3.5 Plus 2026-04-20medium Claude Opus 4.8lowvsGemini 3.1 Flash Lite Previewmedium Claude Opus 4.6mediumvsDeepSeek V4 Prohigh Claude Opus 4.8lowvsQwen3.6 Plusmedium Claude Opus 4.8lowvsMiniMax M3medium Claude Opus 4.8lowvsDeepSeek V4 Prohigh Claude Opus 4.8lowvsGrok Build 0.1medium