#95

MiMo-V2.5

Xiaomi प्रकाशन: 2026-04-22 चाचणी तारीख: 2026-04-22 21:39 xiaomi/mimo-v2.5::none

(medium) (none)

सारांश

MiMo-V2.5 AI BENCHY वर 5.1 स्कोर करते आणि #95 वर आहे. याची reliability लागू नाही, pass rate 27.8%, एकूण खर्च $0.019, आणि सरासरी response time 1.05s आहे.

MiMo-V2.5 खास का आहे: हे कोडिंग मध्ये सर्वाधिक उठून दिसते, जिथे त्याचा rank #1 आहे; तर अँटी-एआय युक्त्या हा सर्वात कमकुवत भाग आहे, rank #16. या score range साठी एकूण benchmark खर्च असामान्यपणे कमी आहे. समान मॉडेल्सच्या तुलनेत हे लक्षणीय वेगवान आहे.

स्कोअर

5.1

सुसंगतता

10.0

विश्वसनीयता

लागू नाही

एकूण खर्च (सध्याची किंमत)

$0.019

एकूण आउटपुट टोकन्स

2,177

एकूण इनपुट टोकन्स

इनपुट किंमत

$0.400 / 1M

आउटपुट किंमत

$2.000 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 13

प्रति प्रयत्न पास दर: 27.8%

अस्थिर चाचण्या

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

1.05s

प्रतिसाद वेळ (कमाल): 2.43s

प्रतिसाद वेळ (एकूण): 18.94s

चुकीचे उत्तर: 10 सूचनांचे पालन केले नाही: 2 अतिरिक्त फॉरमॅटिंग: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#95 MiMo-V2.5

none

खर्च: $0.007
वेळ: 267.4s
टोकन्स: 25,283 tok

रन इतिहास

चाचणी तारीख	स्कोअर	विश्वसनीयता	एकूण खर्च	तुलना करा
2026-07-16 22:42 नवीन चाचणी जोडली	5.1	10.0	$0.025 ↓	तुलना करा
2026-06-04 13:48 नवीन चाचणी जोडली	4.9	10.0	$0.007 ↓	तुलना करा
2026-05-22 12:51 नवीन चाचणी जोडली	4.8	10.0	$0.021	तुलना करा
2026-05-08 15:33 सूट बदलला	4.9	10.0	$0.019	तुलना करा
2026-04-22 21:39 पहिली नोंदलेली रन	5.1	लागू नाही	$0.019	सध्याची रन

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

MiMo-V2.5nonevsMistral Small 4medium MiMo-V2.5nonevsQwen3.5-9Bnone MiMo-V2.5nonevsQwen3 Coder Nextnone MiMo-V2.5nonevsNorth Mini Codenoneमोफत उपलब्ध MiMo-V2.5nonevsMistral Small 4none MiMo-V2.5nonevsMiniMax M2.7medium MiMo-V2.5nonevsInklingnone MiMo-V2.5nonevsLaguna S 2.1lowमोफत उपलब्ध MiMo-V2.5nonevsLing-2.6-1Tnone MiMo-V2.5nonevsDeepSeek V3.2none

श्रेणीवार तपशील

श्रेणी	स्कोअर	सुसंगतता
अँटी-एआय युक्त्या	4.8	10.0
कोडिंग	10.0	10.0
संयुक्त	3.0	10.0
डेटा पार्सिंग आणि निष्कर्षण	6.5	10.0
डोमेन-विशिष्ट	3.0	10.0
Samanya Buddhimatta	4.6	10.0
सूचनांचे पालन	6.5	10.0
कोडी सोडवणे	3.4	10.0
टूल कॉलिंग	10.0	10.0

MiMo-V2.5

Hamster playing table tennis

#95 MiMo-V2.5

चार्ट्स

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर vs एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

तुलना केलेली मॉडेल्स