AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: स्कोर ↓.
121/121
मॉडल फ़िल्टर करें
मौजूदा खोज और फ़िल्टर से कोई मॉडल मेल नहीं खाता।
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | कुल लागत | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|---|
| #99 | Nemotron 3 Ultra 550b A55b none | NVIDIA | 1 | 6.1 | $0.027 | 8/21 | 2.27s |
| #102 | Qwen3.6 Flash none | Qwen | 1 | 6.0 | $0.015 | 7/21 | 1.60s |
| #103 | Qwen3.5-35B-A3B none | Qwen | 2 | 5.9 | $0.012 | 7/21 | 3.37s |
| #104 | Qwen3.5-27B none | Qwen | 2 | 5.9 | $0.015 | 7/21 | 1.68s |
| #105 | GLM 5V Turbo none | Z.ai | 2 | 5.9 | $0.052 | 8/21 | 2.99s |
| #108 | Owl Alpha medium | Openrouter | 2 | 5.8 | $0.000 | 8/21 | 11.9s |
| #109 | Mimo V2 PRO none | Xiaomi | 2 | 5.8 | $0.045 | 7/21 | 2.27s |
| #110 | Owl Alpha none | Openrouter | 3 | 5.8 | $0.000 | 7/21 | 9.88s |
| #111 | Kimi K2.6 none | Moonshot AI | 3 | 5.8 | $0.079 | 7/21 | 13.3s |
| #112 | GPT-5.4 none | OpenAI | 1 | 5.8 | $0.122 | 7/21 | 1.42s |
| #114 | Mimo V2 Omni none | Xiaomi | 1 | 5.7 | $0.021 | 8/21 | 2.44s |
| #115 | Grok 4.1 Fast medium | X AI | 4 | 5.6 | $0.069 | 9/19 | 23.8s |
| #117 | DeepSeek V4 Flash none | DeepSeek | 1 | 5.5 | $0.007 | 5/21 | 26.8s |
| #119 | MiMo-V2.5-Pro none | Xiaomi | 4 | 5.5 | $0.017 | 6/21 | 1.78s |
| #120 | Qwen3.6 27B none | Qwen | 2 | 5.5 | $0.028 | 7/21 | 3.72s |