AI BENCHY
Your ad here

AI BENCHY श्रेणी अपयशे

Samanya Buddhimatta: सूचनांचे पालन केले नाही

Samanya Buddhimatta
सूचनांचे पालन केले नाही

Samanya Buddhimatta मध्ये कोणत्या AI मॉडेल्सना सूचनांचे पालन केले नाही येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील. क्रम लावा: अपयशांची संख्या ↑.

दाखवलेली मॉडेल्स

15

एकूण अपयशे

58

सर्वाधिक प्रभावित मॉडेल

Seed-2.0-Lite 1
क्रमांक मॉडेल कंपनी सूचनांचे पालन केले नाही संख्या श्रेणी स्कोअर बरोबर चाचण्या प्रतिसाद वेळ (सरासरी)
#6 Seed-2.0-Lite medium Bytedance Seed 1 6.7 0/1 18.2s
#7 GPT-5.3-Codex medium OpenAI 1 4.6 0/1 4.87s
#9 Qwen3.6 Plus Preview medium Qwen 1 5.1 0/1 27.1s
#10 Qwen3.5-27B medium Qwen 1 6.1 0/1 101.4s
#13 GLM 5 medium Z.ai 1 6.1 0/1 14.7s
#15 Gemini 2.5 Flash medium Google 1 4.8 0/1 4.86s
#16 GPT-5.4 medium OpenAI 1 4.7 0/1 4.92s
#20 Qwen3.6 Plus medium Qwen 1 5.1 0/1 27.1s
#22 Gemini 3.1 Flash Lite Preview low Google 1 4.0 0/1 1.54s
#27 DeepSeek V3.2 medium DeepSeek 1 5.4 0/1 31.3s
#28 GPT-5.2 Chat none OpenAI 1 4.4 0/1 3.20s
#29 Gemini 3.1 Flash Lite Preview none Google 1 4.0 0/1 741ms
#30 Step 3.5 Flash medium Stepfun 1 5.5 0/1 6.54s
#32 Qwen3.5-Flash medium Qwen 1 6.1 0/1 40.1s
#36 GPT-5.3 Chat none OpenAI 1 4.6 0/1 1.99s

सूचनांचे पालन केले नाही संख्या नुसार शीर्ष मॉडेल्स

सूचनांचे पालन केले नाही संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स