AI BENCHY Compare

Anthropic: Claude Opus 4.6 vs MoonshotAI: Kimi K2.6

Zusammenfassung

Claude Opus 4.6 vs Kimi K2.6 Benchmark-Vergleich: Kimi K2.6 führt beim Durchschnittsscore mit 7.8 vs 7.7. Kimi K2.6 hat die niedrigeren Benchmark-Kosten mit $0.888 vs $2.053. Claude Opus 4.6 ist schneller mit 25.89s vs 71.67s, mit Erfolgsraten von 61.9% vs 65.1%.

Empfohlenes Modell: Kimi K2.6 - Es hat hier die beste Punktzahl (7.8) und kostet etwa 2.3x weniger als Claude Opus 4.6.

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-07-02

Metrik	Claude Opus 4.6 Claude Opus 4.6 medium Veröffentlichung: 2026-02-05	Kimi K2.6 Kimi K2.6 medium Veröffentlichung: 2026-04-20 Kostenlos verfügbar

Metrik	Claude Opus 4.6 Claude Opus 4.6 medium Veröffentlichung: 2026-02-05	Kimi K2.6 Kimi K2.6 medium Veröffentlichung: 2026-04-20 Kostenlos verfügbar
Punktzahl	7.7	7.8
Rang	#40	#36
Zuverlässigkeit	10.0	10.0
Konsistenz	8.8	8.6
Korrekte Tests
Erfolgsquote pro Versuch	61.9%	65.1%
Instabile Tests	3	3
Gesamtläufe	63	63
Kosten pro Ergebnis	17.103	8.358
Gesamtkosten	$2.053	$0.888
Eingabepreis	$5.000 / 1M	$0.660 / 1M
Ausgabepreis	$25.000 / 1M	$3.410 / 1M
Gesamte Eingabe-Token	53,227	29,450
Ausgabe-Token	47,446	102,923
Denk-Token	24,000	254,094
Antwortzeit (Durchschnitt)	25.89s	71.67s
Antwortzeit (Maximum)	83.40s	406.78s
Antwortzeit (Gesamt)	362.49s	1433.36s

Generierungs-Showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#40 Claude Opus 4.6

medium

Ungültiges SVG

Kosten: $0.000
Zeit: 300.0s
Token: 0 tok

#36 MoonshotAI: Kimi K2.6

medium

Kosten: $0.013
Zeit: 103.4s
Token: 3,620 tok

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Opus 4.6	6.4	5.8	66.7%	2		7.45s	840	986	1,071
Kimi K2.6	7.0	8.0	66.7%	1		11.59s	618	7,115	8,934

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Opus 4.6	5.7	7.1	44.4%	1		30.10s	8,522	13,057	4,121
Kimi K2.6	5.7	8.6	33.3%	0		214.42s	2,925	9,970	77,189

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Opus 4.6	10.0	10.0	100.0%	0		76.66s	20,685	8,178	5,194
Kimi K2.6	10.0	10.0	100.0%	0		40.96s	11,271	711	13,876

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Opus 4.6	10.0	10.0	100.0%	0		7.37s	8,676	691	757
Kimi K2.6	10.0	10.0	100.0%	0		20.38s	7,014	316	11,305

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Opus 4.6	3.0	10.0	0.0%	0		83.40s	674	14,642	8,687
Kimi K2.6	5.3	7.2	44.4%	1		202.38s	326	47,035	98,262

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Opus 4.6	10.0	10.0	100.0%	0		5.04s	564	188	292
Kimi K2.6	10.0	10.0	100.0%	0		17.83s	477	3,981	4,472

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Opus 4.6	10.0	10.0	100.0%	0		2.43s	792	266	467
Kimi K2.6	10.0	10.0	100.0%	0		12.53s	669	3,977	5,269

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Opus 4.6	7.7	10.0	66.7%	0		4.71s	816	532	630
Kimi K2.6	6.0	7.4	55.6%	1		25.06s	651	13,860	17,599

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Opus 4.6	10.0	10.0	100.0%	0		9.73s	11,454	861	329
Kimi K2.6	10.0	10.0	100.0%	0		8.92s	5,286	248	1,011

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Opus 4.6	3.0	10.0	0.0%	0		63.24s	204	8,045	2,452
Kimi K2.6	3.0	10.0	0.0%	0		130.27s	213	15,710	16,177

Schnellvergleich

Vergleichspaar wechseln

Claude Opus 4.6mediumvsStep 3.7 Flashlow Claude Opus 4.8lowvsKimi K2.6mediumKostenlos verfügbar Kimi K2.6mediumKostenlos verfügbarvsStep 3.7 Flashlow Claude Opus 4.6mediumvsDeepSeek V4 Prohigh DeepSeek V4 ProhighvsKimi K2.6mediumKostenlos verfügbar Claude Opus 4.6mediumvsGPT-5.3 Chatnone Kimi K2.6mediumKostenlos verfügbarvsGPT-5.3 Chatnone Claude Opus 4.6mediumvsGemini 3 Flash Previewlow Gemini 3 Flash PreviewlowvsKimi K2.6mediumKostenlos verfügbar Claude Sonnet 4.6nonevsKimi K2.6mediumKostenlos verfügbar DeepSeek V4 FlashhighvsKimi K2.6mediumKostenlos verfügbar Claude Opus 4.6mediumvsDeepSeek V4 Pronone