AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: कुल लागत ↑.
121/121
मॉडल फ़िल्टर करें
मौजूदा खोज और फ़िल्टर से कोई मॉडल मेल नहीं खाता।
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | कुल लागत | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|---|
| #114 | Mimo V2 Omni none | Xiaomi | 1 | 5.7 | $0.021 | 8/21 | 2.44s |
| #54 | Hy3 preview medium | Tencent | 1 | 7.3 | $0.021 | 14/21 | 16.3s |
| #60 | Qwen3.7 Plus none | Qwen | 1 | 7.2 | $0.023 | 10/21 | 2.85s |
| #159 | MiMo-V2-Flash none | Xiaomi | 2 | 4.3 | $0.025 | 4/21 | 2.76s |
| #82 | Gemini 3.1 Flash Lite Preview low | 1 | 6.5 | $0.026 | 13/21 | 2.77s | |
| #144 | Ring-2.6-1T none | Inclusionai | 2 | 4.8 | $0.026 | 9/21 | 55.1s |
| #23 | DeepSeek V4 Flash high | DeepSeek | 2 | 8.3 | $0.027 | 13/21 | 45.8s |
| #99 | Nemotron 3 Ultra 550b A55b none | NVIDIA | 1 | 6.1 | $0.027 | 8/21 | 2.27s |
| #120 | Qwen3.6 27B none | Qwen | 2 | 5.5 | $0.028 | 7/21 | 3.72s |
| #128 | Qwen3.6 35B A3B none | Qwen | 2 | 5.2 | $0.031 | 4/21 | 3.73s |
| #122 | Qwen3.5 Plus 2026-04-20 none | Qwen | 2 | 5.5 | $0.032 | 7/21 | 4.39s |
| #72 | Ring-2.6-1T medium | Inclusionai | 2 | 6.8 | $0.033 | 11/21 | 61.3s |
| #58 | DeepSeek V4 Pro none | DeepSeek | 2 | 7.2 | $0.034 | 10/21 | 6.41s |
| #165 | Qwen3.5-9B medium | Qwen | 1 | 3.8 | $0.036 | 3/21 | 82.2s |
| #124 | GPT-5.4 Mini none | OpenAI | 3 | 5.3 | $0.038 | 5/21 | 1.13s |