AI BENCHY
तुलना करा चार्ट्स Paddhati
❤️ Made by XCS
Your ad here

AI BENCHY श्रेणी अपयशे

कोडी सोडवणे
सूचनांचे पालन केले नाही

कोडी सोडवणे मध्ये कोणत्या AI मॉडेल्सना सूचनांचे पालन केले नाही येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↓.

दाखवलेली मॉडेल्स

20

एकूण अपयशे

24

सर्वाधिक प्रभावित मॉडेल

Qwen3.5-27B 1
क्रमांक मॉडेल कंपनी सूचनांचे पालन केले नाही संख्या श्रेणी स्कोअर बरोबर चाचण्या प्रतिसाद वेळ (सरासरी)
#7 Qwen3.5-27B medium Qwen 1 8.3 2/3 64.6s
#28 Kimi K2.5 medium Moonshot AI 1 4.0 1/3 45.4s
#34 GPT-5 Nano medium OpenAI 1 4.0 1/3 19.8s
#32 GPT-5 Mini medium OpenAI 1 4.3 1/3 14.1s
#52 GLM 4.7 Flash medium Z.ai 1 10.0 0/3 12.9s
#39 gpt-oss-120b medium OpenAI 2 1.7 0/3 11.8s
#9 GPT-5.4 medium OpenAI 1 7.0 2/3 9.13s
#30 Grok 4.1 Fast medium X AI 1 4.0 1/3 8.08s
#13 Step 3.5 Flash medium Stepfun 1 4.0 1/3 7.72s
#37 Qwen3.5-Flash none Qwen 1 1.3 0/3 5.90s
#27 GPT-5.2 medium OpenAI 1 7.0 2/3 5.47s
#3 GPT-5.3-Codex medium OpenAI 1 9.3 2/3 5.12s
#50 Qwen3 Coder Next medium Qwen 2 10.0 0/3 2.30s
#55 LFM2-24B-A2B none Liquid 1 3.3 0/3 1.69s
#44 GPT-5.4 none OpenAI 1 4.0 1/3 1.52s
#41 Qwen3.5-27B none Qwen 1 6.3 1/3 1.37s
#42 Qwen3.5-35B-A3B none Qwen 1 1.7 0/3 1.34s
#49 GLM 4.7 Flash none Z.ai 2 3.7 0/3 1.00s
#36 Mercury 2 medium Inception 2 1.7 0/3 934ms
#38 Gemini 2.5 Flash none Google 1 4.7 1/3 576ms

सूचनांचे पालन केले नाही संख्या नुसार शीर्ष मॉडेल्स

सूचनांचे पालन केले नाही संख्या विरुद्ध सरासरी स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स