AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: स्कोर ↑.
121/121
मॉडल फ़िल्टर करें
मौजूदा खोज और फ़िल्टर से कोई मॉडल मेल नहीं खाता।
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | कुल लागत | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|---|
| #136 | Grok 4.20 Multi Agent Beta medium | X AI | 2 | 5.0 | $5.599 | 8/18 | 9.69s |
| #135 | Qwen3.5-9B none | Qwen | 2 | 5.1 | $0.006 | 4/21 | 1.89s |
| #134 | MiMo-V2.5 none | Xiaomi | 1 | 5.1 | $0.007 | 5/21 | 2.20s |
| #133 | Mistral Small 4 medium | Mistral | 2 | 5.1 | $0.068 | 5/21 | 9.40s |
| #132 | Hunter Alpha medium | OpenRouter | 2 | 5.1 | $0.000 | 8/18 | 10.3s |
| #131 | North Mini Code none | Cohere | 2 | 5.1 | $0.000 | 4/21 | 29.8s |
| #130 | Qwen3 Coder Next none | Qwen | 1 | 5.1 | $0.009 | 5/21 | 8.62s |
| #129 | Mistral Small 4 none | Mistral | 1 | 5.1 | $0.007 | 5/21 | 630ms |
| #128 | Qwen3.6 35B A3B none | Qwen | 2 | 5.2 | $0.031 | 4/21 | 3.73s |
| #127 | MiniMax M2.7 medium | Minimax | 5 | 5.2 | $0.104 | 5/21 | 38.2s |
| #126 | DeepSeek V3.2 none | DeepSeek | 1 | 5.3 | $0.017 | 6/21 | 13.8s |
| #125 | Qwen3.5-122B-A10B none | Qwen | 2 | 5.3 | $0.020 | 6/21 | 3.41s |
| #124 | GPT-5.4 Mini none | OpenAI | 3 | 5.3 | $0.038 | 5/21 | 1.13s |
| #123 | GLM 5 Turbo none | Z.ai | 2 | 5.3 | $0.047 | 6/21 | 2.82s |
| #122 | Qwen3.5 Plus 2026-04-20 none | Qwen | 2 | 5.5 | $0.032 | 7/21 | 4.39s |