#38

MiMo-V2.5

Xiaomi Rilis: 2026-04-22 Diuji pada: 2026-04-22 22:54 xiaomi/mimo-v2.5::medium

(medium) (none)

Ringkasan

MiMo-V2.5 mendapat skor 7.8 di AI BENCHY dan berada di peringkat #38. Model ini memiliki reliabilitas T/A, tingkat keberhasilan 74.1%, total biaya $0.253, dan waktu respons rata-rata 13.71s.

Yang membuat MiMo-V2.5 unik: Model ini paling menonjol di Pemrograman, dengan peringkat #1, sementara Parsing dan ekstraksi data adalah area terlemahnya di #18.

Skor

7.8

Konsistensi

8.6

Keandalan

T/A

Total biaya (harga saat ini)

$0.253

Total token output

119,082

Total token input

Harga input

$0.400 / 1M

Harga output

$2.000 / 1M

Tes benar

Tes Salah: 6

Tingkat lulus per percobaan: 74.1%

Tes tidak stabil

Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).

Waktu respons (rata-rata)

13.71s

Waktu respons (maks): 86.93s

Waktu respons (total): 246.73s

Format tambahan: 2 Jawaban salah: 2 Tidak mengikuti instruksi: 1 Tidak ada jawaban: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#38 MiMo-V2.5

medium

Biaya: $0.002
Waktu: 54.8s
Token: 5,247 tok

Riwayat run

Diuji pada	Skor	Keandalan	Total Biaya	Bandingkan
2026-07-16 22:46 Tes baru ditambahkan	6.5	10.0	$0.082 ↓	Bandingkan
2026-06-04 13:56 Tes baru ditambahkan	7.3	10.0	$0.063 ↓	Bandingkan
2026-05-22 12:59 Tes baru ditambahkan	7.4	10.0	$0.346	Bandingkan
2026-05-08 15:28 Suite berubah	7.8	10.0	$0.253	Bandingkan
2026-04-22 22:54 Run pertama yang tercatat	7.8	T/A	$0.253	Run saat ini

Grafik

Pilih model pertama, lalu klik model kedua untuk membuka halaman berdampingan.

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Perbandingan Cepat

MiMo-V2.5mediumvsQwen3.6 27Bmedium MiMo-V2.5mediumvsLaguna XS 2.1mediumTersedia gratis MiMo-V2.5mediumvsGemini 3.5 Flash-Litemedium MiMo-V2.5mediumvsQwen3.5-27Bnone MiMo-V2.5mediumvsQwen3.6 Max Previewnone MiMo-V2.5mediumvsGemini 3.1 Flash Lite Previewlow MiMo-V2.5mediumvsLongCat 2.0high MiMo-V2.5mediumvsGemini 3.1 Flash Litelow MiMo-V2.5mediumvsGLM 5.2none MiMo-V2.5mediumvsGemini 3.1 Flash Lite Previewnone

Rincian Kategori

Kategori	Skor	Konsistensi
Trik anti-AI	10.0	10.0
Pemrograman	10.0	10.0
Gabungan	10.0	10.0
Parsing dan ekstraksi data	2.7	5.7
Spesifik domain	5.3	10.0
Kecerdasan umum	3.8	2.5
Kepatuhan instruksi	9.9	10.0
Pemecahan teka-teki	8.2	7.2
Pemanggilan alat	10.0	10.0

MiMo-V2.5

Hamster playing table tennis

#38 MiMo-V2.5

Grafik

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Perbandingan Cepat

Rincian Kategori

Model yang Dibandingkan