AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: स्कोर ↑.
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #67 | Grok 4.20 Multi Agent Beta medium | X AI | 4 | 6.4 | 7/18 | 9.80s |
| #66 | MiMo-V2-Omni none | Xiaomi | 2 | 6.5 | 8/18 | 1.99s |
| #65 | Mercury 2 medium | Inception | 4 | 6.5 | 8/18 | 2.21s |
| #63 | Grok 4.1 Fast medium | X AI | 4 | 6.7 | 9/18 | 23.9s |
| #62 | DeepSeek V4 Pro none | DeepSeek | 1 | 6.7 | 9/18 | 23.3s |
| #61 | Nemotron 3 Super medium | NVIDIA | 4 | 6.7 | 9/18 | 19.1s |
| #60 | Hunter Alpha medium | OpenRouter | 2 | 6.7 | 8/18 | 10.3s |
| #59 | GPT-5.5 none | OpenAI | 1 | 6.8 | 9/18 | 1.83s |
| #57 | DeepSeek V4 Pro high | DeepSeek | 3 | 6.8 | 11/18 | 60.0s |
| #56 | Gemma 4 31B none | 1 | 6.9 | 10/18 | 4.02s | |
| #55 | Grok 4.20 medium | X AI | 4 | 7.0 | 9/18 | 10.3s |
| #54 | Kimi K2.5 medium | Moonshot AI | 2 | 7.0 | 9/18 | 72.4s |
| #53 | GPT-5 Mini medium | OpenAI | 4 | 7.0 | 9/18 | 24.0s |
| #52 | GPT-5.4 Mini medium | OpenAI | 5 | 7.3 | 9/18 | 15.2s |
| #50 | Claude Sonnet 4.6 none | Anthropic | 1 | 7.4 | 11/18 | 4.98s |