AI BENCHY Compare

Qwen: Qwen3.7 Plus vs Xiaomi: MiMo-V2.5-Pro

Ringkasan

Perbandingan benchmark Qwen3.7 Plus vs MiMo-V2.5-Pro: MiMo-V2.5-Pro unggul dalam skor rata-rata dengan 7.4 vs 7.2. Qwen3.7 Plus memiliki biaya benchmark lebih rendah di $0.023 vs $0.106. Qwen3.7 Plus lebih cepat di 2.85s vs 26.13s, dengan tingkat keberhasilan 47.6% vs 68.3%.

Model yang direkomendasikan: Qwen3.7 Plus - Its score stays close to the best score here (7.2 vs 7.4), while costing about 4.8x less than MiMo-V2.5-Pro.

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-06-12

Metrik	Qwen3.7 Plus Qwen3.7 Plus none Rilis: 2026-06-03	MiMo-V2.5-Pro MiMo-V2.5-Pro medium Rilis: 2026-04-22

Metrik	Qwen3.7 Plus Qwen3.7 Plus none Rilis: 2026-06-03	MiMo-V2.5-Pro MiMo-V2.5-Pro medium Rilis: 2026-04-22
Skor	7.2	7.4
Peringkat	#61	#52
Keandalan	10.0	10.0
Konsistensi	10.0	8.5
Tes benar
Tingkat lulus per percobaan	47.6%	68.3%
Tes tidak stabil	0	4
Total Run	63	63
Biaya per hasil	0.276	2.541
Total Biaya	$0.023	$0.106
Harga input	$0.320 / 1M	$0.435 / 1M
Harga output	$1.280 / 1M	$0.870 / 1M
Total token input	42,510	40,854
Token output	6,578	5,015
Token penalaran	0	97,742
Waktu respons (rata-rata)	2.85s	26.13s
Waktu respons (maks)	29.38s	130.77s
Waktu respons (total)	59.86s	548.65s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#61 Qwen3.7 Plus

none

Cost: $0.019
Time: 213.5s
Tokens: 11,960 tok

#52 MiMo-V2.5-Pro

medium

Invalid SVG

Cost: $0.000
Time: 300.0s
Tokens: 0 tok

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Qwen3.7 Plus	6.5	10.0	50.0%	0		1.38s	696	349	0
MiMo-V2.5-Pro	10.0	10.0	100.0%	0		3.26s	621	323	1,179

Pemrograman	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Qwen3.7 Plus	5.5	10.0	33.3%	0		2.15s	7,911	639	0
MiMo-V2.5-Pro	6.2	4.7	66.7%	2		92.07s	6,543	780	51,218

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Qwen3.7 Plus	10.0	10.0	100.0%	0		29.38s	14,952	4,505	0
MiMo-V2.5-Pro	10.0	10.0	100.0%	0		53.36s	15,060	348	11,870

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Qwen3.7 Plus	10.0	10.0	100.0%	0		1.43s	7,794	243	0
MiMo-V2.5-Pro	7.3	5.8	83.3%	1		18.81s	7,746	260	8,383

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Qwen3.7 Plus	3.0	10.0	0.0%	0		868ms	789	18	0
MiMo-V2.5-Pro	5.3	10.0	33.3%	0		37.87s	630	275	17,023

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Qwen3.7 Plus	5.3	10.0	0.0%	0		1.33s	522	78	0
MiMo-V2.5-Pro	5.5	10.0	0.0%	0		4.02s	492	155	163

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Qwen3.7 Plus	6.3	10.0	50.0%	0		929ms	711	72	0
MiMo-V2.5-Pro	9.9	10.0	100.0%	0		2.77s	672	82	803

Pemecahan teka-teki	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Qwen3.7 Plus	7.7	10.0	66.7%	0		1.71s	714	443	0
MiMo-V2.5-Pro	6.7	7.9	55.6%	1		5.31s	660	540	2,181

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Qwen3.7 Plus	10.0	10.0	100.0%	0		3.54s	8,211	222	0
MiMo-V2.5-Pro	10.0	10.0	100.0%	0		16.87s	8,220	311	2,908

Pengetahuan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Qwen3.7 Plus	3.0	10.0	0.0%	0		1.21s	210	9	0
MiMo-V2.5-Pro	3.0	10.0	0.0%	0		12.46s	210	1,941	2,014

Perbandingan Cepat

Ganti Pasangan Perbandingan

Gemma 4 26B A4BmediumTersedia gratisvsQwen3.7 Plusnone Gemini 3 Flash PreviewlowvsMiMo-V2.5-Promedium Qwen3.7 PlusnonevsMiMo-V2-Flashmedium Qwen3.7 PlusnonevsStep 3.7 Flashhigh Qwen3.7 PlusnonevsGLM 5.1medium Qwen3.7 PlusnonevsGLM 5V Turbomedium GPT-5.3 ChatnonevsMiMo-V2.5-Promedium Claude Sonnet 4.6nonevsMiMo-V2.5-Promedium Kimi K2.7 CodemediumvsQwen3.7 Plusnone Qwen3.7 PlusnonevsGrok 4.20medium Claude Opus 4.8nonevsMiMo-V2.5-Promedium Gemini 3 Flash PreviewlowvsQwen3.7 Plusnone