AI BENCHY Compare

Anthropic: Claude Opus 4.6 vs Xiaomi: MiMo-V2.5

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-05-22

Metrik	Claude Opus 4.6 Claude Opus 4.6 medium Rilis: 2026-02-05	MiMo-V2.5 MiMo-V2.5 medium Rilis: 2026-04-22

Metrik	Claude Opus 4.6 Claude Opus 4.6 medium Rilis: 2026-02-05	MiMo-V2.5 MiMo-V2.5 medium Rilis: 2026-04-22
Skor	7.2	7.4
Peringkat	#63	#53
Keandalan	10.0	10.0
Konsistensi	9.1	8.4
Tes benar
Tingkat lulus per percobaan	63.3%	70.0%
Tes tidak stabil	2	4
Total Run	60	60
Biaya per hasil	15.798	2.877
Total Biaya	$1.896	$0.346
Harga input	$5.000 / 1M	$0.400 / 1M
Harga output	$25.000 / 1M	$2.000 / 1M
Token output	42,253	2,891
Token penalaran	23,561	161,845
Waktu respons (rata-rata)	25.44s	20.40s
Waktu respons (maks)	83.40s	97.49s
Waktu respons (total)	330.70s	407.98s

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Claude Opus 4.6	6.4	5.8	66.7%	2		7.45s	986	1,071
MiMo-V2.5	10.0	10.0	100.0%	0		4.14s	281	1,739

Pemrograman	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Claude Opus 4.6	7.2	9.8	50.0%	0		29.37s	7,865	3,675
MiMo-V2.5	6.9	6.2	66.7%	1		64.48s	536	44,967

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Claude Opus 4.6	10.0	10.0	100.0%	0		76.66s	8,178	5,194
MiMo-V2.5	10.0	10.0	100.0%	0		16.86s	363	7,609

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Claude Opus 4.6	10.0	10.0	100.0%	0		7.37s	691	757
MiMo-V2.5	2.7	5.7	16.7%	1		6.33s	306	5,714

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Claude Opus 4.6	3.0	10.0	0.0%	0		83.40s	14,642	8,687
MiMo-V2.5	5.3	10.0	33.3%	0		34.53s	507	49,478

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Claude Opus 4.6	10.0	10.0	100.0%	0		5.04s	188	292
MiMo-V2.5	5.4	2.5	66.7%	1		5.37s	121	418

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Claude Opus 4.6	10.0	10.0	100.0%	0		2.43s	266	467
MiMo-V2.5	9.9	10.0	100.0%	0		1.80s	88	801

Pemecahan teka-teki	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Claude Opus 4.6	7.7	10.0	66.7%	0		4.60s	531	637
MiMo-V2.5	8.2	7.2	88.9%	1		20.60s	364	33,211

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Claude Opus 4.6	10.0	10.0	100.0%	0		9.73s	861	329
MiMo-V2.5	10.0	10.0	100.0%	0		7.29s	303	2,424

Pengetahuan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Claude Opus 4.6	3.0	10.0	0.0%	0		63.24s	8,045	2,452
MiMo-V2.5	3.0	10.0	0.0%	0		51.29s	22	15,484

Perbandingan Cepat

Ganti Pasangan Perbandingan

GPT-5.3 ChatnonevsMiMo-V2.5medium DeepSeek V4 FlashhighTersedia gratisvsMiMo-V2.5medium Gemini 3.1 Flash LitelowvsMiMo-V2.5medium Claude Opus 4.6mediumvsRing-2.6-1Tnone Gemini 3.1 Flash Lite PreviewnonevsMiMo-V2.5medium Claude Opus 4.6mediumvsQwen3.6 Max Previewnone Ring-2.6-1TnonevsMiMo-V2.5medium Claude Opus 4.6mediumvsDeepSeek V4 FlashhighTersedia gratis Claude Opus 4.6mediumvsGPT-5.3 Chatnone GPT-5.2 ChatnonevsMiMo-V2.5medium Claude Opus 4.6mediumvsGemini 3.1 Flash Litelow Gemini 3.1 Flash Lite PreviewlowvsMiMo-V2.5medium