AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: स्कोर ↑.
121/121
मॉडल फ़िल्टर करें
मौजूदा खोज और फ़िल्टर से कोई मॉडल मेल नहीं खाता।
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | कुल लागत | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|---|
| #152 | Elephant Alpha none | Openrouter | 3 | 4.6 | $0.000 | 5/21 | 1.22s |
| #151 | Mercury 2 none | Inception | 1 | 4.6 | $0.011 | 4/21 | 653ms |
| #149 | Grok 4.20 Beta none | X AI | 1 | 4.7 | $0.087 | 6/18 | 1.19s |
| #148 | Qwen3 Coder Next medium | Qwen | 3 | 4.7 | $0.008 | 4/21 | 8.58s |
| #147 | Ling-2.6-1T none | Inclusionai | 2 | 4.7 | $0.005 | 3/21 | 7.72s |
| #146 | MiniMax M2.5 medium | Minimax | 3 | 4.7 | $0.303 | 5/21 | 65.4s |
| #145 | GPT-5.4 Nano none | OpenAI | 2 | 4.8 | $0.011 | 4/21 | 1.48s |
| #144 | Ring-2.6-1T none | Inclusionai | 2 | 4.8 | $0.026 | 9/21 | 55.1s |
| #143 | Ling-2.6-flash none | Inclusionai | 2 | 4.9 | $0.001 | 6/21 | 9.34s |
| #142 | Nemotron 3 Super none | NVIDIA | 2 | 4.9 | $0.007 | 5/21 | 5.30s |
| #141 | GLM 4.7 Flash none | Z.ai | 1 | 4.9 | $0.004 | 6/21 | 2.86s |
| #140 | Cobuddy medium | Baidu | 3 | 4.9 | $0.000 | 7/21 | 39.9s |
| #139 | GPT-4o-mini none | OpenAI | 1 | 5.0 | $0.006 | 5/21 | 1.77s |
| #138 | Laguna M.1 medium | Poolside | 1 | 5.0 | $0.000 | 9/19 | 14.7s |
| #137 | Trinity Large Preview none | Arcee AI | 3 | 5.0 | $0.008 | 4/21 | 2.98s |