AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: स्कोर ↑.
121/121
मॉडल फ़िल्टर करें
मौजूदा खोज और फ़िल्टर से कोई मॉडल मेल नहीं खाता।
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | कुल लागत | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|---|
| #169 | LFM2-24B-A2B none | Liquid | 1 | 2.4 | $0.001 | 2/16 | 782ms |
| #168 | Step 3.5 Flash none | Stepfun | 1 | 2.6 | $0.020 | 6/12 | 39.0s |
| #167 | Nemotron 3 Nano Omni 30b A3b Reasoning none | NVIDIA | 2 | 3.5 | $0.000 | 2/19 | 728ms |
| #166 | Nemotron 3 Nano Omni 30b A3b Reasoning medium | NVIDIA | 1 | 3.6 | $0.000 | 4/19 | 17.1s |
| #165 | Qwen3.5-9B medium | Qwen | 1 | 3.8 | $0.036 | 3/21 | 82.2s |
| #164 | gpt-oss-120b none | OpenAI | 2 | 4.0 | $0.010 | 6/19 | 21.6s |
| #163 | Granite 4.1 8B none | IBM Granite | 4 | 4.0 | $0.003 | 2/21 | 728ms |
| #162 | Laguna Xs.2 none | Poolside | 1 | 4.0 | $0.000 | 5/19 | 806ms |
| #161 | Grok 4.1 Fast none | X AI | 3 | 4.0 | $0.008 | 3/19 | 1.62s |
| #160 | Grok Build 0.1 none | X AI | 2 | 4.2 | $0.547 | 7/19 | 28.7s |
| #159 | MiMo-V2-Flash none | Xiaomi | 2 | 4.3 | $0.025 | 4/21 | 2.76s |
| #158 | Hy3 preview none | Tencent | 4 | 4.3 | $0.003 | 4/21 | 12.9s |
| #157 | GLM 4.7 Flash medium | Z.ai | 2 | 4.3 | $0.054 | 4/21 | 35.1s |
| #154 | Hunter Alpha none | OpenRouter | 2 | 4.5 | $0.000 | 6/18 | 4.70s |
| #153 | Elephant Alpha medium | Openrouter | 2 | 4.5 | $0.000 | 6/21 | 1.27s |