#20

MiMo-V2.5-Pro

Xiaomi रिलीज़: 2026-04-22 परीक्षण किया गया: 2026-05-08 15:28 xiaomi/mimo-v2.5-pro::medium

(medium) (none)

सारांश

MiMo-V2.5-Pro AI BENCHY पर 8.1 स्कोर करता है और #20 पर है। इसकी reliability 10.0, pass rate 74.1%, कुल लागत $0.200, और औसत response time 16.23s है।

MiMo-V2.5-Pro को अलग क्या बनाता है: इस score range के लिए इसकी कुल benchmark लागत असामान्य रूप से कम है।

स्कोर

8.1

संगति

9.2

विश्वसनीयता

10.0

कुल लागत (वर्तमान कीमत)

$0.200

कुल आउटपुट टोकन

54,791

कुल इनपुट टोकन

इनपुट कीमत

$1.000 / 1M

आउटपुट कीमत

$3.000 / 1M

सही परीक्षण

गलत टेस्ट: 6

प्रति प्रयास पास दर: 74.1%

अस्थिर टेस्ट

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

16.23s

प्रतिक्रिया समय (अधिकतम): 84.22s

प्रतिक्रिया समय (कुल): 292.10s

अतिरिक्त फॉर्मेटिंग: 2 निर्देशों का पालन नहीं किया: 2 गलत उत्तर: 2

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#20 MiMo-V2.5-Pro

medium

अमान्य SVG

लागत: $0.000
समय: 300.0s
टोकन: 0 tok

रन इतिहास

परीक्षण किया गया	स्कोर	विश्वसनीयता	कुल लागत	तुलना करें
2026-07-16 22:50 नया टेस्ट जोड़ा गया	6.9	10.0	$0.187 ↓	तुलना करें
2026-06-04 13:52 नया टेस्ट जोड़ा गया	7.5	10.0	$0.106 ↓	तुलना करें
2026-05-08 15:28 सूट बदला गया	8.1	10.0	$0.200	वर्तमान रन
2026-04-22 22:54 पहला दर्ज रन	8.1	लागू नहीं	$0.201	तुलना करें

इस रन में अलग बेंचमार्क सूट इस्तेमाल हुआ था। ऐतिहासिक बदलाव पढ़ते समय सूट बदलाव को ध्यान में रखें।

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

MiMo-V2.5-PromediumvsGPT-5.6 Solnone MiMo-V2.5-PromediumvsQwen3.6 Flashmedium MiMo-V2.5-PromediumvsDeepSeek V4 Pronone MiMo-V2.5-PromediumvsStep 3.7 Flashhigh MiMo-V2.5-PromediumvsKAT-Coder-Pro V2.5medium MiMo-V2.5-PromediumvsGPT-5.5none MiMo-V2.5-PromediumvsSeed-2.0-Minimedium MiMo-V2.5-PromediumvsGemini 3.5 Flashminimal MiMo-V2.5-PromediumvsGemini 3.5 Flashnone MiMo-V2.5-PromediumvsGemini 3 Flash Previewnone

श्रेणी विवरण

श्रेणी	स्कोर	संगति
एंटी-एआई ट्रिक्स	10.0	10.0
कोडिंग	10.0	10.0
संयुक्त	10.0	10.0
डेटा पार्सिंग और निष्कर्षण	7.3	5.8
डोमेन-विशिष्ट	5.3	10.0
Samanya Buddhimatta	5.5	10.0
निर्देश पालन	9.9	10.0
पहेली समाधान	6.7	7.9
टूल कॉलिंग	10.0	10.0

MiMo-V2.5-Pro

Hamster playing table tennis

#20 MiMo-V2.5-Pro

चार्ट

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

तुलना किए गए मॉडल