AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs MoonshotAI: Kimi K2.6

Zusammenfassung

Claude Opus 4.8 vs Kimi K2.6 Benchmark-Vergleich: Der Durchschnittsscore ist mit 7.7 vs 7.8 praktisch gleichauf. Kimi K2.6 hat die niedrigeren Benchmark-Kosten mit $0.831 vs $1.270. Claude Opus 4.8 ist schneller mit 10.83s vs 71.67s, mit Erfolgsraten von 79.4% vs 65.1%.

Empfohlenes Modell: Claude Opus 4.8 - Es hat hier die beste Punktzahl (7.7) und antwortet etwa 6.6x schneller als Kimi K2.6.

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-06-30

Metrik	Claude Opus 4.8 Claude Opus 4.8 low Veröffentlichung: 2026-05-28	Kimi K2.6 Kimi K2.6 medium Veröffentlichung: 2026-04-20 Kostenlos verfügbar

Metrik	Claude Opus 4.8 Claude Opus 4.8 low Veröffentlichung: 2026-05-28	Kimi K2.6 Kimi K2.6 medium Veröffentlichung: 2026-04-20 Kostenlos verfügbar
Punktzahl	7.7	7.8
Rang	#38	#36
Zuverlässigkeit	10.0	10.0
Konsistenz	8.8	8.6
Korrekte Tests
Erfolgsquote pro Versuch	79.4%	65.1%
Instabile Tests	3	3
Gesamtläufe	63	63
Kosten pro Ergebnis	8.466	8.358
Gesamtkosten	$1.270	$0.831
Eingabepreis	$5.000 / 1M	$0.550 / 1M
Ausgabepreis	$25.000 / 1M	$3.200 / 1M
Gesamte Eingabe-Token	60,946	29,450
Ausgabe-Token	31,771	102,923
Denk-Token	6,831	254,094
Antwortzeit (Durchschnitt)	10.83s	71.67s
Antwortzeit (Maximum)	127.97s	406.78s
Antwortzeit (Gesamt)	227.39s	1433.36s

Generierungs-Showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#38 Claude Opus 4.8

low

Kosten: $0.031
Zeit: 14.1s
Token: 1,345 tok

#36 MoonshotAI: Kimi K2.6

medium

Kosten: $0.013
Zeit: 103.4s
Token: 3,620 tok

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Opus 4.8	10.0	10.0	100.0%	0		3.30s	834	793	371
Kimi K2.6	7.0	8.0	66.7%	1		11.59s	618	7,115	8,934

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Opus 4.8	6.6	4.6	77.8%	2		7.58s	10,590	3,637	809
Kimi K2.6	5.7	8.6	33.3%	0		214.42s	2,925	9,970	77,189

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Opus 4.8	9.8	10.0	100.0%	0		20.84s	23,500	2,216	1,081
Kimi K2.6	10.0	10.0	100.0%	0		40.96s	11,271	711	13,876

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Opus 4.8	6.3	5.8	66.7%	1		2.27s	10,503	310	0
Kimi K2.6	10.0	10.0	100.0%	0		20.38s	7,014	316	11,305

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Opus 4.8	5.3	10.0	33.3%	0		45.53s	975	23,311	3,908
Kimi K2.6	5.3	7.2	44.4%	1		202.38s	326	47,035	98,262

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Opus 4.8	10.0	10.0	100.0%	0		2.55s	708	231	0
Kimi K2.6	10.0	10.0	100.0%	0		17.83s	477	3,981	4,472

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Opus 4.8	9.8	10.0	100.0%	0		2.78s	909	111	221
Kimi K2.6	10.0	10.0	100.0%	0		12.53s	669	3,977	5,269

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Opus 4.8	10.0	10.0	100.0%	0		3.01s	894	592	184
Kimi K2.6	6.0	7.4	55.6%	1		25.06s	651	13,860	17,599

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Opus 4.8	10.0	10.0	100.0%	0		6.85s	11,775	370	35
Kimi K2.6	10.0	10.0	100.0%	0		8.92s	5,286	248	1,011

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Opus 4.8	3.0	10.0	0.0%	0		5.48s	258	200	222
Kimi K2.6	3.0	10.0	0.0%	0		130.27s	213	15,710	16,177

Schnellvergleich

Vergleichspaar wechseln

Claude Opus 4.8lowvsQwen3.5-122B-A10Bmedium Claude Opus 4.8lowvsGrok 4.3medium Claude Opus 4.8lowvsGemini 3.1 Flash Litemedium Claude Opus 4.8lowvsQwen3.5 Plus 2026-04-20medium Claude Opus 4.8lowvsGemini 3.1 Flash Lite Previewmedium Kimi K2.6mediumKostenlos verfügbarvsStep 3.7 Flashlow Claude Opus 4.8lowvsQwen3.6 Plusmedium Claude Opus 4.8lowvsMiniMax M3medium Claude Opus 4.8lowvsDeepSeek V4 Prohigh Claude Opus 4.8lowvsGrok Build 0.1medium DeepSeek V4 ProhighvsKimi K2.6mediumKostenlos verfügbar Claude Opus 4.8lowvsQwen3.5-27Bmedium