AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY श्रेणी अपयशे

Samanya Buddhimatta: सूचनांचे पालन केले नाही

Samanya Buddhimatta
सूचनांचे पालन केले नाही

Samanya Buddhimatta मध्ये कोणत्या AI मॉडेल्सना सूचनांचे पालन केले नाही येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↓.

दाखवलेली मॉडेल्स

15

एकूण अपयशे

58

सर्वाधिक प्रभावित मॉडेल

Qwen3.5-27B 1
क्रमांक मॉडेल कंपनी सूचनांचे पालन केले नाही संख्या श्रेणी स्कोअर बरोबर चाचण्या प्रतिसाद वेळ (सरासरी)
#10 Qwen3.5-27B medium Qwen 1 6.1 0/1 101.4s
#46 Kimi K2.5 medium Moonshot AI 1 6.5 0/1 69.7s
#32 Qwen3.5-Flash medium Qwen 1 6.1 0/1 40.1s
#80 MiniMax M2.7 medium Minimax 1 3.9 0/1 38.7s
#39 Seed-2.0-Mini medium Bytedance Seed 1 5.1 0/1 36.7s
#27 DeepSeek V3.2 medium DeepSeek 1 5.4 0/1 31.3s
#51 Nemotron 3 Super medium NVIDIA 1 3.8 0/1 27.9s
#9 Qwen3.6 Plus Preview medium Qwen 1 5.1 0/1 27.1s
#20 Qwen3.6 Plus medium Qwen 1 5.1 0/1 27.1s
#88 Nemotron 3 Super none NVIDIA 1 4.2 0/1 25.0s
#6 Seed-2.0-Lite medium Bytedance Seed 1 6.7 0/1 18.2s
#57 GPT-5 Nano medium OpenAI 1 4.1 0/1 17.5s
#52 Grok 4.1 Fast medium X AI 1 4.2 0/1 16.2s
#13 GLM 5 medium Z.ai 1 6.1 0/1 14.7s
#45 GPT-5 Mini medium OpenAI 1 4.5 0/1 13.5s

सूचनांचे पालन केले नाही संख्या नुसार शीर्ष मॉडेल्स

सूचनांचे पालन केले नाही संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स