AI BENCHY Compare

Anthropic: Claude Opus 4.6 vs MoonshotAI: Kimi K2.6

Ringkasan

Perbandingan benchmark Claude Opus 4.6 vs Kimi K2.6: Kimi K2.6 unggul dalam skor rata-rata dengan 7.8 vs 7.7. Kimi K2.6 memiliki biaya benchmark lebih rendah di $0.888 vs $2.053. Claude Opus 4.6 lebih cepat di 25.89s vs 71.67s, dengan tingkat keberhasilan 61.9% vs 65.1%.

Model yang direkomendasikan: Kimi K2.6 - It has the best score here (7.8), while costing about 2.3x less than Claude Opus 4.6.

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-07-02

Metrik	Claude Opus 4.6 Claude Opus 4.6 medium Rilis: 2026-02-05	Kimi K2.6 Kimi K2.6 medium Rilis: 2026-04-20 Tersedia gratis

Metrik	Claude Opus 4.6 Claude Opus 4.6 medium Rilis: 2026-02-05	Kimi K2.6 Kimi K2.6 medium Rilis: 2026-04-20 Tersedia gratis
Skor	7.7	7.8
Peringkat	#40	#36
Keandalan	10.0	10.0
Konsistensi	8.8	8.6
Tes benar
Tingkat lulus per percobaan	61.9%	65.1%
Tes tidak stabil	3	3
Total Run	63	63
Biaya per hasil	17.103	8.358
Total Biaya	$2.053	$0.888
Harga input	$5.000 / 1M	$0.660 / 1M
Harga output	$25.000 / 1M	$3.410 / 1M
Total token input	53,227	29,450
Token output	47,446	102,923
Token penalaran	24,000	254,094
Waktu respons (rata-rata)	25.89s	71.67s
Waktu respons (maks)	83.40s	406.78s
Waktu respons (total)	362.49s	1433.36s

Showcase generasi

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#40 Claude Opus 4.6

medium

SVG tidak valid

Biaya: $0.000
Waktu: 300.0s
Token: 0 tok

#36 MoonshotAI: Kimi K2.6

medium

Biaya: $0.013
Waktu: 103.4s
Token: 3,620 tok

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.6	6.4	5.8	66.7%	2		7.45s	840	986	1,071
Kimi K2.6	7.0	8.0	66.7%	1		11.59s	618	7,115	8,934

Pemrograman	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.6	5.7	7.1	44.4%	1		30.10s	8,522	13,057	4,121
Kimi K2.6	5.7	8.6	33.3%	0		214.42s	2,925	9,970	77,189

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.6	10.0	10.0	100.0%	0		76.66s	20,685	8,178	5,194
Kimi K2.6	10.0	10.0	100.0%	0		40.96s	11,271	711	13,876

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.6	10.0	10.0	100.0%	0		7.37s	8,676	691	757
Kimi K2.6	10.0	10.0	100.0%	0		20.38s	7,014	316	11,305

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.6	3.0	10.0	0.0%	0		83.40s	674	14,642	8,687
Kimi K2.6	5.3	7.2	44.4%	1		202.38s	326	47,035	98,262

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.6	10.0	10.0	100.0%	0		5.04s	564	188	292
Kimi K2.6	10.0	10.0	100.0%	0		17.83s	477	3,981	4,472

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.6	10.0	10.0	100.0%	0		2.43s	792	266	467
Kimi K2.6	10.0	10.0	100.0%	0		12.53s	669	3,977	5,269

Pemecahan teka-teki	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.6	7.7	10.0	66.7%	0		4.71s	816	532	630
Kimi K2.6	6.0	7.4	55.6%	1		25.06s	651	13,860	17,599

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.6	10.0	10.0	100.0%	0		9.73s	11,454	861	329
Kimi K2.6	10.0	10.0	100.0%	0		8.92s	5,286	248	1,011

Pengetahuan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.6	3.0	10.0	0.0%	0		63.24s	204	8,045	2,452
Kimi K2.6	3.0	10.0	0.0%	0		130.27s	213	15,710	16,177

Perbandingan Cepat

Ganti Pasangan Perbandingan

Claude Opus 4.6mediumvsStep 3.7 Flashlow Claude Opus 4.8lowvsKimi K2.6mediumTersedia gratis Kimi K2.6mediumTersedia gratisvsStep 3.7 Flashlow Claude Opus 4.6mediumvsDeepSeek V4 Prohigh DeepSeek V4 ProhighvsKimi K2.6mediumTersedia gratis Claude Opus 4.6mediumvsGPT-5.3 Chatnone Kimi K2.6mediumTersedia gratisvsGPT-5.3 Chatnone Claude Opus 4.6mediumvsGemini 3 Flash Previewlow Gemini 3 Flash PreviewlowvsKimi K2.6mediumTersedia gratis Claude Sonnet 4.6nonevsKimi K2.6mediumTersedia gratis DeepSeek V4 FlashhighvsKimi K2.6mediumTersedia gratis Claude Opus 4.6mediumvsDeepSeek V4 Pronone