#20

MiMo-V2.5-Pro

Xiaomi रिलीज़: 2026-04-22 परीक्षण किया गया: 2026-05-08 15:28 xiaomi/mimo-v2.5-pro::medium

(medium) (none)

सारांश

MiMo-V2.5-Pro AI BENCHY पर 8.1 स्कोर करता है और #20 पर है। इसकी reliability 10.0, pass rate 74.1%, कुल लागत $0.200, और औसत response time 16.23s है।

MiMo-V2.5-Pro को अलग क्या बनाता है: इस score range के लिए इसकी कुल benchmark लागत असामान्य रूप से कम है।

स्कोर

8.1

संगति

9.2

विश्वसनीयता

10.0

कुल लागत (वर्तमान कीमत)

$0.200

कुल आउटपुट टोकन

54,791

कुल इनपुट टोकन

इनपुट कीमत

$1.000 / 1M

आउटपुट कीमत

$3.000 / 1M

सही परीक्षण

गलत टेस्ट: 6

प्रति प्रयास पास दर: 74.1%

अस्थिर टेस्ट

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

16.23s

प्रतिक्रिया समय (अधिकतम): 84.22s

प्रतिक्रिया समय (कुल): 292.10s

अतिरिक्त फॉर्मेटिंग: 2 निर्देशों का पालन नहीं किया: 2 गलत उत्तर: 2

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#20 MiMo-V2.5-Pro

medium

अमान्य SVG

लागत: $0.000
समय: 300.0s
टोकन: 0 tok

रन इतिहास

परीक्षण किया गया	स्कोर	विश्वसनीयता	कुल लागत	तुलना करें
2026-07-16 22:50 नया टेस्ट जोड़ा गया	6.9	10.0	$0.187 ↓	तुलना करें
2026-06-04 13:52 नया टेस्ट जोड़ा गया	7.5	10.0	$0.106 ↓	तुलना करें
2026-05-08 15:28 सूट बदला गया	8.1	10.0	$0.200	वर्तमान रन
2026-04-22 22:54 पहला दर्ज रन	8.1	लागू नहीं	$0.201	तुलना करें

इस रन में अलग बेंचमार्क सूट इस्तेमाल हुआ था। ऐतिहासिक बदलाव पढ़ते समय सूट बदलाव को ध्यान में रखें।

रन तुलना

रन	स्कोर	संगति	विश्वसनीयता	सही परीक्षण	अस्थिर टेस्ट	कुल आउटपुट टोकन	कुल लागत	प्रतिक्रिया समय (औसत)
2026-05-08 15:28 · सूट बदला गया	8.1	9.2	10.0	12/18	2	54,791	$0.200	16.23s
2026-04-22 22:54 · पहला दर्ज रन	8.1	8.8	लागू नहीं	12/18	3	55,306	$0.201	16.17s
अंतर	0.0	+0.4		0	-1	-515	-$0.002	+56ms

इन दो रन में अलग-अलग बेंचमार्क सूट इस्तेमाल हुए थे, इसलिए अंतर मॉडल बदलाव और सूट बदलाव दोनों को दर्शाते हैं।

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

MiMo-V2.5-PromediumvsGPT-5.6 Solnone MiMo-V2.5-PromediumvsQwen3.6 Flashmedium MiMo-V2.5-PromediumvsDeepSeek V4 Pronone MiMo-V2.5-PromediumvsStep 3.7 Flashhigh MiMo-V2.5-PromediumvsKAT-Coder-Pro V2.5medium MiMo-V2.5-PromediumvsGPT-5.5none MiMo-V2.5-PromediumvsSeed-2.0-Minimedium MiMo-V2.5-PromediumvsGemini 3.5 Flashminimal MiMo-V2.5-PromediumvsGemini 3.5 Flashnone MiMo-V2.5-PromediumvsGemini 3 Flash Previewnone

श्रेणी विवरण

श्रेणी	स्कोर	संगति
एंटी-एआई ट्रिक्स	10.0	10.0
कोडिंग	10.0	10.0
संयुक्त	10.0	10.0
डेटा पार्सिंग और निष्कर्षण	7.3	5.8
डोमेन-विशिष्ट	5.3	10.0
Samanya Buddhimatta	5.5	10.0
निर्देश पालन	9.9	10.0
पहेली समाधान	6.7	7.9
टूल कॉलिंग	10.0	10.0

MiMo-V2.5-Pro

Hamster playing table tennis

#20 MiMo-V2.5-Pro

चार्ट

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

तुलना किए गए मॉडल