AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #77 | Claude Sonnet 4.6 none | Anthropic | 1 | 6.8 | 11/21 | 5.04s |
| #141 | Nemotron 3 Super none | NVIDIA | 2 | 4.9 | 5/21 | 5.30s |
| #102 | Gemma 4 26B A4B none | 2 | 6.0 | 8/21 | 5.91s | |
| #63 | GPT-5.3 Chat none | OpenAI | 2 | 7.2 | 12/21 | 6.34s |
| #24 | GPT-5.2 Chat none | OpenAI | 1 | 7.9 | 14/21 | 7.13s |
| #159 | Ling-2.6-1T none | Inclusionai | 2 | 4.3 | 3/21 | 7.72s |
| #150 | Qwen3 Coder Next medium | Qwen | 3 | 4.6 | 4/21 | 8.58s |
| #140 | Qwen3 Coder Next none | Qwen | 1 | 4.9 | 5/21 | 8.62s |
| #138 | Ling-2.6-flash none | Inclusionai | 2 | 5.0 | 6/21 | 9.34s |
| #132 | Mistral Small 4 medium | Mistral | 2 | 5.3 | 5/21 | 9.40s |
| #84 | Grok 4.20 Multi Agent Beta medium | X AI | 2 | 6.6 | 8/18 | 9.69s |
| #13 | Grok 4.20 Beta medium | X AI | 1 | 8.5 | 14/18 | 9.75s |
| #121 | Owl Alpha none | Openrouter | 3 | 5.5 | 7/21 | 9.88s |
| #79 | Hunter Alpha medium | OpenRouter | 2 | 6.7 | 8/18 | 10.3s |
| #111 | Owl Alpha medium | Openrouter | 2 | 5.7 | 8/21 | 11.9s |