AI BENCHY
Advertise here

AI BENCHY श्रेणी अपयशे

सूचनांचे पालन: सूचनांचे पालन केले नाही

सूचनांचे पालन
सूचनांचे पालन केले नाही

सूचनांचे पालन मध्ये कोणत्या AI मॉडेल्सना सूचनांचे पालन केले नाही येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↑.

दाखवलेली मॉडेल्स

11

एकूण अपयशे

11

सर्वाधिक प्रभावित मॉडेल

Granite 4.1 8B 1
क्रमांक मॉडेल कंपनी सूचनांचे पालन केले नाही संख्या श्रेणी स्कोअर बरोबर चाचण्या प्रतिसाद वेळ (सरासरी)
#163 Granite 4.1 8B none IBM Granite 1 3.6 0/2 344ms
#162 Nemotron 3 Nano Omni 30b A3b Reasoning none NVIDIA 1 4.8 0/2 541ms
#129 MiniMax M2.5 medium Minimax 1 7.5 1/2 621ms
#157 Grok 4.1 Fast none X AI 1 3.0 0/2 685ms
#151 Trinity Large Preview none Arcee AI 1 3.5 0/2 822ms
#149 Nemotron 3 Nano Omni 30b A3b Reasoning medium NVIDIA 1 7.3 1/2 1.37s
#86 Grok 4.1 Fast medium X AI 1 6.5 1/2 4.63s
#62 Step 3.5 Flash medium Stepfun 1 8.3 1/2 4.78s
#80 Mimo V2 Omni medium Xiaomi 1 8.3 1/2 4.99s
#105 Nemotron 3 Super medium NVIDIA 1 7.3 1/2 6.97s
#130 MiniMax M2.7 medium Minimax 1 3.8 0/2 12.8s

सूचनांचे पालन केले नाही संख्या नुसार शीर्ष मॉडेल्स

सूचनांचे पालन केले नाही संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स