#26

Mimo V2 PRO

Xiaomi प्रकाशन: 2026-03-18 चाचणी तारीख: 2026-04-11 01:44 xiaomi/mimo-v2-pro::medium

(medium) (none)

सारांश

Mimo V2 PRO AI BENCHY वर 8.1 स्कोर करते आणि #26 वर आहे. याची reliability लागू नाही, pass rate 77.8%, एकूण खर्च $0.159, आणि सरासरी response time 12.27s आहे.

Mimo V2 PRO खास का आहे: या score range साठी एकूण benchmark खर्च असामान्यपणे कमी आहे.

संग्रहित मॉडेल: हे मॉडेल आता अपडेट केले जाणार नाही आणि नवीन चाचण्यांवर तपासले जाणार नाही.

ओळख नोंद

Hunter Alpha हे Mimo V2 PRO चे स्टेल्थ आवृत्ती होते.

स्कोअर

8.1

सुसंगतता

8.6

विश्वसनीयता

लागू नाही

एकूण खर्च (सध्याची किंमत)

$0.159

एकूण आउटपुट टोकन्स

40,680

एकूण इनपुट टोकन्स

इनपुट किंमत

$1.000 / 1M

आउटपुट किंमत

$3.000 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 6

प्रति प्रयत्न पास दर: 77.8%

अस्थिर चाचण्या

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

12.27s

प्रतिसाद वेळ (कमाल): 64.71s

प्रतिसाद वेळ (एकूण): 208.56s

चुकीचे उत्तर: 3 अतिरिक्त फॉरमॅटिंग: 1 सूचनांचे पालन केले नाही: 1 वेळ संपला: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#26 MiMo-V2-Pro

medium

This model has been deprecated. It is recommended to migrate to xiaomi/mimo-v2.5-pro

खर्च: $0.000
वेळ: 0.1s
टोकन्स: 0 tok

रन इतिहास

चाचणी तारीख	स्कोअर	विश्वसनीयता	एकूण खर्च	तुलना करा
2026-06-04 13:47 नवीन चाचणी जोडली	6.3	9.6	$0.333 ↑	तुलना करा
2026-05-22 00:25 सूट बदलला	7.6	9.5	$0.295	तुलना करा
2026-05-08 15:32 सूट बदलला	7.7	9.4	$0.212	तुलना करा
2026-04-11 01:44 पहिली नोंदलेली रन	8.1	लागू नाही	$0.159	सध्याची रन

रन तुलना

रन	बेंचमार्क कव्हरेज	स्कोअर	सुसंगतता	विश्वसनीयता	बरोबर चाचण्या	अस्थिर चाचण्या	एकूण आउटपुट टोकन्स	एकूण खर्च	प्रतिसाद वेळ (सरासरी)
2026-04-11 01:44 · पहिली नोंदलेली रन	18/18 चाचण्या · 48/54 प्रयत्न	8.1	8.6	लागू नाही	12/18	3	40,680	$0.159	12.27s
2026-05-22 00:25 · सूट बदलला	20/20 चाचण्या · 60/60 प्रयत्न	7.6	7.9	9.5	12/20	5	84,435	$0.295	22.19s
फरक	—	+0.5	+0.7		0	-2	-43755	-$0.136	-9920ms

बेंचमार्क कव्हरेज वेगळे आहे: 18/18 चाचण्या · 48/54 प्रयत्न (लक्ष्य: प्रत्येक चाचणीसाठी 3 पुनरावृत्ती) विरुद्ध 20/20 चाचण्या · 60/60 प्रयत्न (लक्ष्य: प्रत्येक चाचणीसाठी 3 पुनरावृत्ती). एकूण मूल्ये आणि पुनरावृत्तीवर अवलंबून मेट्रिक्स थेट तुलना करता येत नाहीत.

या दोन रनमध्ये वेगवेगळे बेंचमार्क सूट वापरले गेले, त्यामुळे फरकांमध्ये मॉडेलमधील आणि सूटमधील दोन्ही बदल दिसतात.

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

श्रेणीवार तपशील

श्रेणी	स्कोअर	सुसंगतता
अँटी-एआय युक्त्या	10.0	10.0
कोडिंग	10.0	10.0
संयुक्त	4.7	1.6
डेटा पार्सिंग आणि निष्कर्षण	7.3	5.8
डोमेन-विशिष्ट	5.3	10.0
Samanya Buddhimatta	10.0	10.0
सूचनांचे पालन	9.9	10.0
कोडी सोडवणे	7.0	7.2
टूल कॉलिंग	10.0	10.0

Mimo V2 PRO

Hamster playing table tennis

#26 MiMo-V2-Pro

चार्ट्स

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर vs एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

श्रेणीवार तपशील

तुलना केलेली मॉडेल्स