AI BENCHY श्रेणी अपयशे
कोडी सोडवणे: सूचनांचे पालन केले नाही
कोडी सोडवणे
सूचनांचे पालन केले नाही
कोडी सोडवणे मध्ये कोणत्या AI मॉडेल्सना सूचनांचे पालन केले नाही येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील.
अयशस्वी होण्याची कारणे
| क्रमांक | मॉडेल | कंपनी | सूचनांचे पालन केले नाही संख्या | श्रेणी स्कोअर | बरोबर चाचण्या | प्रतिसाद वेळ (सरासरी) |
|---|---|---|---|---|---|---|
| #72 | Hunter Alpha none | OpenRouter | 1 | 5.8 | 1/3 | 3.06s |
| #75 | GLM 5.1 none | Z.ai | 1 | 5.7 | 1/3 | 1.48s |
| #77 | GLM 5 Turbo none | Z.ai | 1 | 5.5 | 1/3 | 2.43s |
| #79 | Grok 4.20 Beta none | X AI | 1 | 5.9 | 1/3 | 541ms |
| #82 | Grok 4.20 none | X AI | 1 | 5.3 | 1/3 | 487ms |
| #85 | Elephant none | Openrouter | 1 | 3.3 | 0/3 | 849ms |
| #86 | GPT-5.4 Mini none | OpenAI | 1 | 5.4 | 1/3 | 860ms |
| #88 | Nemotron 3 Super none | NVIDIA | 1 | 5.7 | 1/3 | 7.50s |
| #93 | GLM 4.7 Flash medium | Z.ai | 1 | 2.9 | 0/3 | 12.9s |
| #96 | GPT-5.4 Nano none | OpenAI | 1 | 3.7 | 0/3 | 1.29s |
| #97 | Qwen3.5-9B medium | Qwen | 1 | 3.1 | 0/3 | 33.4s |
| #98 | LFM2-24B-A2B none | Liquid | 1 | 4.4 | 0/3 | 1.69s |