AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: स्कोर ↓.
121/121
मॉडल फ़िल्टर करें
मौजूदा खोज और फ़िल्टर से कोई मॉडल मेल नहीं खाता।
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | कुल लागत | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|---|
| #136 | Grok 4.20 Multi Agent Beta medium | X AI | 2 | 5.0 | $5.599 | 8/18 | 9.69s |
| #137 | Trinity Large Preview none | Arcee AI | 3 | 5.0 | $0.008 | 4/21 | 2.98s |
| #138 | Laguna M.1 medium | Poolside | 1 | 5.0 | $0.000 | 9/19 | 14.7s |
| #139 | GPT-4o-mini none | OpenAI | 1 | 5.0 | $0.006 | 5/21 | 1.77s |
| #140 | Cobuddy medium | Baidu | 3 | 4.9 | $0.000 | 7/21 | 39.9s |
| #141 | GLM 4.7 Flash none | Z.ai | 1 | 4.9 | $0.004 | 6/21 | 2.86s |
| #142 | Nemotron 3 Super none | NVIDIA | 2 | 4.9 | $0.007 | 5/21 | 5.30s |
| #143 | Ling-2.6-flash none | Inclusionai | 2 | 4.9 | $0.001 | 6/21 | 9.34s |
| #144 | Ring-2.6-1T none | Inclusionai | 2 | 4.8 | $0.026 | 9/21 | 55.1s |
| #145 | GPT-5.4 Nano none | OpenAI | 2 | 4.8 | $0.011 | 4/21 | 1.48s |
| #146 | MiniMax M2.5 medium | Minimax | 3 | 4.7 | $0.303 | 5/21 | 65.4s |
| #147 | Ling-2.6-1T none | Inclusionai | 2 | 4.7 | $0.005 | 3/21 | 7.72s |
| #148 | Qwen3 Coder Next medium | Qwen | 3 | 4.7 | $0.008 | 4/21 | 8.58s |
| #149 | Grok 4.20 Beta none | X AI | 1 | 4.7 | $0.087 | 6/18 | 1.19s |
| #151 | Mercury 2 none | Inception | 1 | 4.6 | $0.011 | 4/21 | 653ms |