AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें।
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #80 | MiniMax M2.7 medium | Minimax | 6 | 5.3 | 4/18 | 31.1s |
| #44 | GPT-5.4 Mini medium | OpenAI | 5 | 7.3 | 9/18 | 15.2s |
| #84 | gpt-oss-120b none | OpenAI | 5 | 5.2 | 4/18 | 12.0s |
| #92 | Qwen3 Coder Next medium | Qwen | 5 | 4.7 | 3/18 | 10.8s |
| #45 | GPT-5 Mini medium | OpenAI | 4 | 7.0 | 9/18 | 24.0s |
| #47 | Grok 4.20 medium | X AI | 4 | 7.0 | 9/18 | 10.3s |
| #51 | Nemotron 3 Super medium | NVIDIA | 4 | 6.7 | 9/18 | 19.1s |
| #52 | Grok 4.1 Fast medium | X AI | 4 | 6.7 | 9/18 | 23.9s |
| #54 | Mercury 2 medium | Inception | 4 | 6.5 | 8/18 | 2.21s |
| #56 | Grok 4.20 Multi Agent Beta medium | X AI | 4 | 6.4 | 7/18 | 9.80s |
| #68 | gpt-oss-120b medium | OpenAI | 4 | 5.8 | 7/18 | 16.1s |
| #88 | Nemotron 3 Super none | NVIDIA | 4 | 5.1 | 4/18 | 8.54s |
| #25 | Grok 4.20 Beta medium | X AI | 3 | 8.0 | 12/18 | 9.81s |
| #30 | Step 3.5 Flash medium | Stepfun | 3 | 7.9 | 11/17 | 26.8s |
| #34 | Kimi K2.6 medium | Moonshot AI | 3 | 7.7 | 11/18 | 45.2s |