AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: कुल लागत ↑.
121/121
मॉडल फ़िल्टर करें
मौजूदा खोज और फ़िल्टर से कोई मॉडल मेल नहीं खाता।
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | कुल लागत | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|---|
| #163 | Granite 4.1 8B none | IBM Granite | 4 | 4.0 | $0.003 | 2/21 | 728ms |
| #98 | Gemma 4 31B none | 1 | 6.1 | $0.004 | 10/21 | 4.05s | |
| #121 | Gemma 4 26B A4B none | 2 | 5.5 | $0.004 | 8/21 | 5.91s | |
| #141 | GLM 4.7 Flash none | Z.ai | 1 | 4.9 | $0.004 | 6/21 | 2.86s |
| #147 | Ling-2.6-1T none | Inclusionai | 2 | 4.7 | $0.005 | 3/21 | 7.72s |
| #135 | Qwen3.5-9B none | Qwen | 2 | 5.1 | $0.006 | 4/21 | 1.89s |
| #139 | GPT-4o-mini none | OpenAI | 1 | 5.0 | $0.006 | 5/21 | 1.77s |
| #142 | Nemotron 3 Super none | NVIDIA | 2 | 4.9 | $0.007 | 5/21 | 5.30s |
| #134 | MiMo-V2.5 none | Xiaomi | 1 | 5.1 | $0.007 | 5/21 | 2.20s |
| #129 | Mistral Small 4 none | Mistral | 1 | 5.1 | $0.007 | 5/21 | 630ms |
| #117 | DeepSeek V4 Flash none | DeepSeek | 1 | 5.5 | $0.007 | 5/21 | 26.8s |
| #161 | Grok 4.1 Fast none | X AI | 3 | 4.0 | $0.008 | 3/19 | 1.62s |
| #137 | Trinity Large Preview none | Arcee AI | 3 | 5.0 | $0.008 | 4/21 | 2.98s |
| #148 | Qwen3 Coder Next medium | Qwen | 3 | 4.7 | $0.008 | 4/21 | 8.58s |
| #130 | Qwen3 Coder Next none | Qwen | 1 | 5.1 | $0.009 | 5/21 | 8.62s |