AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: स्कोर ↑.
121/121
मॉडल फ़िल्टर करें
मौजूदा खोज और फ़िल्टर से कोई मॉडल मेल नहीं खाता।
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | कुल लागत | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|---|
| #121 | Gemma 4 26B A4B none | 2 | 5.5 | $0.004 | 8/21 | 5.91s | |
| #120 | Qwen3.6 27B none | Qwen | 2 | 5.5 | $0.028 | 7/21 | 3.72s |
| #119 | MiMo-V2.5-Pro none | Xiaomi | 4 | 5.5 | $0.017 | 6/21 | 1.78s |
| #117 | DeepSeek V4 Flash none | DeepSeek | 1 | 5.5 | $0.007 | 5/21 | 26.8s |
| #115 | Grok 4.1 Fast medium | X AI | 4 | 5.6 | $0.069 | 9/19 | 23.8s |
| #114 | Mimo V2 Omni none | Xiaomi | 1 | 5.7 | $0.021 | 8/21 | 2.44s |
| #112 | GPT-5.4 none | OpenAI | 1 | 5.8 | $0.122 | 7/21 | 1.42s |
| #111 | Kimi K2.6 none | Moonshot AI | 3 | 5.8 | $0.079 | 7/21 | 13.3s |
| #110 | Owl Alpha none | Openrouter | 3 | 5.8 | $0.000 | 7/21 | 9.88s |
| #109 | Mimo V2 PRO none | Xiaomi | 2 | 5.8 | $0.045 | 7/21 | 2.27s |
| #108 | Owl Alpha medium | Openrouter | 2 | 5.8 | $0.000 | 8/21 | 11.9s |
| #105 | GLM 5V Turbo none | Z.ai | 2 | 5.9 | $0.052 | 8/21 | 2.99s |
| #104 | Qwen3.5-27B none | Qwen | 2 | 5.9 | $0.015 | 7/21 | 1.68s |
| #103 | Qwen3.5-35B-A3B none | Qwen | 2 | 5.9 | $0.012 | 7/21 | 3.37s |
| #102 | Qwen3.6 Flash none | Qwen | 1 | 6.0 | $0.015 | 7/21 | 1.60s |