AI BENCHY श्रेणी अपयशे
कोडी सोडवणे: सूचनांचे पालन केले नाही
कोडी सोडवणे
सूचनांचे पालन केले नाही
कोडी सोडवणे मध्ये कोणत्या AI मॉडेल्सना सूचनांचे पालन केले नाही येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↑.
अयशस्वी होण्याची कारणे
| क्रमांक | मॉडेल | कंपनी | सूचनांचे पालन केले नाही संख्या | श्रेणी स्कोअर | बरोबर चाचण्या | प्रतिसाद वेळ (सरासरी) |
|---|---|---|---|---|---|---|
| #82 | Grok 4.20 none | X AI | 1 | 5.3 | 1/3 | 487ms |
| #79 | Grok 4.20 Beta none | X AI | 1 | 5.9 | 1/3 | 541ms |
| #62 | Gemini 2.5 Flash none | 1 | 5.7 | 1/3 | 576ms | |
| #83 | Mistral Small 4 none | Mistral | 2 | 3.1 | 0/3 | 589ms |
| #90 | Qwen3.5-9B none | Qwen | 2 | 3.2 | 0/3 | 683ms |
| #60 | Gemma 4 26B A4B none | 1 | 5.7 | 1/3 | 739ms | |
| #85 | Elephant none | Openrouter | 1 | 3.3 | 0/3 | 849ms |
| #86 | GPT-5.4 Mini none | OpenAI | 1 | 5.4 | 1/3 | 860ms |
| #81 | Elephant medium | Openrouter | 2 | 3.7 | 0/3 | 867ms |
| #54 | Mercury 2 medium | Inception | 2 | 3.9 | 0/3 | 934ms |
| #74 | GLM 4.7 Flash none | Z.ai | 2 | 4.4 | 0/3 | 1.00s |
| #96 | GPT-5.4 Nano none | OpenAI | 1 | 3.7 | 0/3 | 1.29s |
| #63 | Qwen3.5-35B-A3B none | Qwen | 1 | 3.9 | 0/3 | 1.34s |
| #67 | Qwen3.5-27B none | Qwen | 1 | 6.7 | 1/3 | 1.37s |
| #75 | GLM 5.1 none | Z.ai | 1 | 5.7 | 1/3 | 1.48s |