#62

MiMo-V2-Omni

Xiaomi रिलीज़: 2026-03-18 परीक्षण किया गया: 2026-05-08 15:32 xiaomi/mimo-v2-omni::medium

(medium) (none)

स्कोर

7.2

संगति

9.1

विश्वसनीयता

10.0

कुल लागत

$0.451

कुल आउटपुट टोकन

218,577

???? ???

$0.400 / 1M

????? ???

$2.000 / 1M

सही परीक्षण

गलत टेस्ट: 9

प्रति प्रयास पास दर: 59.7%

अस्थिर टेस्ट

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

27.58s

प्रतिक्रिया समय (अधिकतम): 234.19s

प्रतिक्रिया समय (कुल): 524.03s

गलत उत्तर: 5 निर्देशों का पालन नहीं किया: 2 अतिरिक्त फॉर्मेटिंग: 1 कोई उत्तर नहीं: 1

रन इतिहास

परीक्षण किया गया	स्कोर	विश्वसनीयता	कुल लागत	तुलना करें
2026-05-22 00:27 सूट बदला गया	6.9	10.0	$0.734	तुलना करें
2026-05-08 15:32 सूट बदला गया	7.2	10.0	$0.451	वर्तमान रन
2026-04-11 01:44 पहला दर्ज रन	7.7	लागू नहीं	$0.153	तुलना करें

इस रन में अलग बेंचमार्क सूट इस्तेमाल हुआ था। ऐतिहासिक बदलाव पढ़ते समय सूट बदलाव को ध्यान में रखें।

रन तुलना

रन	स्कोर	संगति	विश्वसनीयता	सही परीक्षण	अस्थिर टेस्ट	कुल आउटपुट टोकन	कुल लागत	प्रतिक्रिया समय (औसत)
2026-05-08 15:32 · सूट बदला गया	7.2	9.1	10.0	10/19	2	218,577	$0.451	27.58s
2026-04-11 01:44 · पहला दर्ज रन	7.7	9.9	लागू नहीं	11/18	0	73,589	$0.153	16.76s
अंतर	-0.5	-0.8		-1	+2	+144988	+$0.299	+10825ms

इन दो रन में अलग-अलग बेंचमार्क सूट इस्तेमाल हुए थे, इसलिए अंतर मॉडल बदलाव और सूट बदलाव दोनों को दर्शाते हैं।

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

MiMo-V2-OmnimediumvsRing-2.6-1Tnone MiMo-V2-OmnimediumvsGPT-5.4 Nanomedium MiMo-V2-OmnimediumvsRing-2.6-1Tmedium MiMo-V2-OmnimediumvsGPT-5.4 Minimedium MiMo-V2-OmnimediumvsGLM 5V Turbomedium MiMo-V2-OmnimediumvsQwen3.6 Max Previewnone MiMo-V2-OmnimediumvsGemini 3 Flash Previewmedium MiMo-V2-OmnimediumvsGemini 3.5 Flashhigh MiMo-V2-OmnimediumvsGemini 3.5 Flashlow

श्रेणी विवरण

श्रेणी	स्कोर	संगति
एंटी-एआई ट्रिक्स	10.0	10.0
कोडिंग	4.0	7.9
संयुक्त	10.0	10.0
डेटा पार्सिंग और निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	3.0	10.0
Samanya Buddhimatta	5.4	2.5
निर्देश पालन	8.3	10.0
पहेली समाधान	5.9	7.2
टूल कॉलिंग	10.0	10.0
सामान्य ज्ञान	3.0	10.0

MiMo-V2-Omni

चार्ट

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

तुलना किए गए मॉडल