AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: कुल लागत ↓.
121/121
मॉडल फ़िल्टर करें
मौजूदा खोज और फ़िल्टर से कोई मॉडल मेल नहीं खाता।
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | कुल लागत | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|---|
| #62 | MiMo-V2-Flash medium | Xiaomi | 1 | 7.1 | $0.043 | 12/21 | 20.1s |
| #124 | GPT-5.4 Mini none | OpenAI | 3 | 5.3 | $0.038 | 5/21 | 1.13s |
| #165 | Qwen3.5-9B medium | Qwen | 1 | 3.8 | $0.036 | 3/21 | 82.2s |
| #58 | DeepSeek V4 Pro none | DeepSeek | 2 | 7.2 | $0.034 | 10/21 | 6.41s |
| #72 | Ring-2.6-1T medium | Inclusionai | 2 | 6.8 | $0.033 | 11/21 | 61.3s |
| #122 | Qwen3.5 Plus 2026-04-20 none | Qwen | 2 | 5.5 | $0.032 | 7/21 | 4.39s |
| #128 | Qwen3.6 35B A3B none | Qwen | 2 | 5.2 | $0.031 | 4/21 | 3.73s |
| #120 | Qwen3.6 27B none | Qwen | 2 | 5.5 | $0.028 | 7/21 | 3.72s |
| #99 | Nemotron 3 Ultra 550b A55b none | NVIDIA | 1 | 6.1 | $0.027 | 8/21 | 2.27s |
| #23 | DeepSeek V4 Flash high | DeepSeek | 2 | 8.3 | $0.027 | 13/21 | 45.8s |
| #144 | Ring-2.6-1T none | Inclusionai | 2 | 4.8 | $0.026 | 9/21 | 55.1s |
| #82 | Gemini 3.1 Flash Lite Preview low | 1 | 6.5 | $0.026 | 13/21 | 2.77s | |
| #159 | MiMo-V2-Flash none | Xiaomi | 2 | 4.3 | $0.025 | 4/21 | 2.76s |
| #60 | Qwen3.7 Plus none | Qwen | 1 | 7.2 | $0.023 | 10/21 | 2.85s |
| #54 | Hy3 preview medium | Tencent | 1 | 7.3 | $0.021 | 14/21 | 16.3s |