AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: कुल लागत ↓.
121/121
मॉडल फ़िल्टर करें
मौजूदा खोज और फ़िल्टर से कोई मॉडल मेल नहीं खाता।
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | कुल लागत | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|---|
| #164 | gpt-oss-120b none | OpenAI | 2 | 4.0 | $0.010 | 6/19 | 21.6s |
| #130 | Qwen3 Coder Next none | Qwen | 1 | 5.1 | $0.009 | 5/21 | 8.62s |
| #148 | Qwen3 Coder Next medium | Qwen | 3 | 4.7 | $0.008 | 4/21 | 8.58s |
| #137 | Trinity Large Preview none | Arcee AI | 3 | 5.0 | $0.008 | 4/21 | 2.98s |
| #161 | Grok 4.1 Fast none | X AI | 3 | 4.0 | $0.008 | 3/19 | 1.62s |
| #117 | DeepSeek V4 Flash none | DeepSeek | 1 | 5.5 | $0.007 | 5/21 | 26.8s |
| #129 | Mistral Small 4 none | Mistral | 1 | 5.1 | $0.007 | 5/21 | 630ms |
| #134 | MiMo-V2.5 none | Xiaomi | 1 | 5.1 | $0.007 | 5/21 | 2.20s |
| #142 | Nemotron 3 Super none | NVIDIA | 2 | 4.9 | $0.007 | 5/21 | 5.30s |
| #139 | GPT-4o-mini none | OpenAI | 1 | 5.0 | $0.006 | 5/21 | 1.77s |
| #135 | Qwen3.5-9B none | Qwen | 2 | 5.1 | $0.006 | 4/21 | 1.89s |
| #147 | Ling-2.6-1T none | Inclusionai | 2 | 4.7 | $0.005 | 3/21 | 7.72s |
| #141 | GLM 4.7 Flash none | Z.ai | 1 | 4.9 | $0.004 | 6/21 | 2.86s |
| #121 | Gemma 4 26B A4B none | 2 | 5.5 | $0.004 | 8/21 | 5.91s | |
| #98 | Gemma 4 31B none | 1 | 6.1 | $0.004 | 10/21 | 4.05s |