AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #121 | Owl Alpha none | Openrouter | 3 | 5.5 | 7/21 | 9.88s |
| #13 | Grok 4.20 Beta medium | X AI | 1 | 8.5 | 14/18 | 9.75s |
| #84 | Grok 4.20 Multi Agent Beta medium | X AI | 2 | 6.6 | 8/18 | 9.69s |
| #132 | Mistral Small 4 medium | Mistral | 2 | 5.3 | 5/21 | 9.40s |
| #138 | Ling-2.6-flash none | Inclusionai | 2 | 5.0 | 6/21 | 9.34s |
| #140 | Qwen3 Coder Next none | Qwen | 1 | 4.9 | 5/21 | 8.62s |
| #150 | Qwen3 Coder Next medium | Qwen | 3 | 4.6 | 4/21 | 8.58s |
| #159 | Ling-2.6-1T none | Inclusionai | 2 | 4.3 | 3/21 | 7.72s |
| #24 | GPT-5.2 Chat none | OpenAI | 1 | 7.9 | 14/21 | 7.13s |
| #63 | GPT-5.3 Chat none | OpenAI | 2 | 7.2 | 12/21 | 6.34s |
| #102 | Gemma 4 26B A4B none | 2 | 6.0 | 8/21 | 5.91s | |
| #141 | Nemotron 3 Super none | NVIDIA | 2 | 4.9 | 5/21 | 5.30s |
| #77 | Claude Sonnet 4.6 none | Anthropic | 1 | 6.8 | 11/21 | 5.04s |
| #7 | Gemini 3.5 Flash medium | 1 | 9.0 | 18/21 | 4.94s | |
| #116 | Hunter Alpha none | OpenRouter | 2 | 5.7 | 6/18 | 4.70s |