AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY श्रेणी अपयशे

सूचनांचे पालन: सूचनांचे पालन केले नाही

सूचनांचे पालन
सूचनांचे पालन केले नाही

सूचनांचे पालन मध्ये कोणत्या AI मॉडेल्सना सूचनांचे पालन केले नाही येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील. क्रम लावा: बरोबर चाचण्या ↓.

दाखवलेली मॉडेल्स

11

एकूण अपयशे

11

सर्वाधिक प्रभावित मॉडेल

Step 3.5 Flash 1
क्रमांक मॉडेल कंपनी सूचनांचे पालन केले नाही संख्या श्रेणी स्कोअर बरोबर चाचण्या प्रतिसाद वेळ (सरासरी)
#62 Step 3.5 Flash medium Stepfun 1 8.3 1/2 4.78s
#80 Mimo V2 Omni medium Xiaomi 1 8.3 1/2 4.99s
#86 Grok 4.1 Fast medium X AI 1 6.5 1/2 4.63s
#105 Nemotron 3 Super medium NVIDIA 1 7.3 1/2 6.97s
#129 MiniMax M2.5 medium Minimax 1 7.5 1/2 621ms
#149 Nemotron 3 Nano Omni 30b A3b Reasoning medium NVIDIA 1 7.3 1/2 1.37s
#130 MiniMax M2.7 medium Minimax 1 3.8 0/2 12.8s
#151 Trinity Large Preview none Arcee AI 1 3.5 0/2 822ms
#157 Grok 4.1 Fast none X AI 1 3.0 0/2 685ms
#162 Nemotron 3 Nano Omni 30b A3b Reasoning none NVIDIA 1 4.8 0/2 541ms
#163 Granite 4.1 8B none IBM Granite 1 3.6 0/2 344ms

सूचनांचे पालन केले नाही संख्या नुसार शीर्ष मॉडेल्स

सूचनांचे पालन केले नाही संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स