AI BENCHY Compare

MoonshotAI: Kimi K2.5 vs Qwen: Qwen3.6 27B

Ringkasan

Perbandingan benchmark Kimi K2.5 vs Qwen3.6 27B: Kimi K2.5 unggul dalam skor rata-rata dengan 6.8 vs 5.6. Qwen3.6 27B memiliki biaya benchmark lebih rendah di $0.025 vs $0.328. Qwen3.6 27B lebih cepat di 3.72s vs 98.43s, dengan tingkat keberhasilan 68.3% vs 47.6%.

Model yang direkomendasikan: Qwen3.6 27B - It offers the best overall trade-off: a competitive score (5.6), lower cost than Kimi K2.5, and balanced response time.

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-06-10

Metrik	Kimi K2.5 Kimi K2.5 medium Rilis: 2026-01-27	Qwen3.6 27B Qwen3.6 27B none Rilis: 2026-04-20

Metrik	Kimi K2.5 Kimi K2.5 medium Rilis: 2026-01-27	Qwen3.6 27B Qwen3.6 27B none Rilis: 2026-04-20
Skor	6.8	5.6
Peringkat	#77	#119
Keandalan	10.0	10.0
Konsistensi	6.9	7.6
Tes benar
Tingkat lulus per percobaan	68.3%	47.6%
Tes tidak stabil	8	6
Total Run	63	63
Biaya per hasil	3.704	0.467
Total Biaya	$0.328	$0.025
Harga input	$0.400 / 1M	$0.290 / 1M
Harga output	$1.900 / 1M	$2.400 / 1M
Total token input	34,312	52,721
Token output	48,379	3,812
Token penalaran	157,747	0
Waktu respons (rata-rata)	98.43s	3.72s
Waktu respons (maks)	281.00s	11.82s
Waktu respons (total)	1378.03s	78.08s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#77 MoonshotAI: Kimi K2.5

medium

Cost: $0.030
Time: 58.6s
Tokens: 8,683 tok

#119 Qwen3.6 27B

none

Cost: $0.009
Time: 83.0s
Tokens: 4,549 tok

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Kimi K2.5	7.3	5.8	83.3%	2		51.38s	634	2,789	8,880
Qwen3.6 27B	3.8	3.7	41.7%	3		2.83s	696	490	0

Pemrograman	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Kimi K2.5	6.1	4.6	66.7%	2		217.49s	6,935	5,705	74,693
Qwen3.6 27B	5.5	10.0	33.3%	0		4.16s	7,913	539	0

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Kimi K2.5	10.0	10.0	100.0%	0		71.37s	11,280	703	3,713
Qwen3.6 27B	3.0	10.0	0.0%	0		9.95s	22,497	1,401	0

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Kimi K2.5	10.0	10.0	100.0%	0		49.78s	7,020	563	7,940
Qwen3.6 27B	7.3	5.8	83.3%	1		2.06s	7,788	248	0

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Kimi K2.5	3.5	4.4	33.3%	2		137.29s	485	20,753	30,564
Qwen3.6 27B	7.7	10.0	66.7%	0		3.03s	789	24	0

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Kimi K2.5	6.5	3.4	66.7%	1		69.73s	480	3,815	4,262
Qwen3.6 27B	5.2	9.9	0.0%	0		1.07s	522	72	0

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Kimi K2.5	10.0	10.0	100.0%	0		92.47s	675	5,371	6,547
Qwen3.6 27B	6.2	5.8	66.7%	1		1.92s	711	49	0

Pemecahan teka-teki	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Kimi K2.5	5.3	7.3	44.4%	1		43.23s	659	8,426	12,692
Qwen3.6 27B	5.3	7.2	44.4%	1		5.15s	714	639	0

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Kimi K2.5	10.0	10.0	100.0%	0		31.74s	5,933	242	812
Qwen3.6 27B	9.5	10.0	100.0%	0		6.74s	10,881	339	0

Pengetahuan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Kimi K2.5	3.0	10.0	0.0%	0		83.95s	211	12	7,644
Qwen3.6 27B	3.0	10.0	0.0%	0		4.03s	210	11	0

Perbandingan Cepat

Ganti Pasangan Perbandingan

Claude Sonnet 4.6nonevsKimi K2.5medium CobuddymediumvsQwen3.6 27Bnone Kimi K2.5mediumvsQwen3.6 Max Previewnone Nemotron 3 SupermediumTersedia gratisvsQwen3.6 27Bnone Kimi K2.5mediumvsStep 3.7 Flashhigh Claude Opus 4.8nonevsKimi K2.5medium Gemma 4 31BnoneTersedia gratisvsKimi K2.5medium MiniMax M2.5mediumvsQwen3.6 27Bnone MiniMax M2.7mediumvsQwen3.6 27Bnone Mistral Small 4mediumvsQwen3.6 27Bnone Kimi K2.5mediumvsGPT-5.3 Chatnone DeepSeek V4 ProhighvsQwen3.6 27Bnone