AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: स्कोर ↓.
121/121
मॉडल फ़िल्टर करें
मौजूदा खोज और फ़िल्टर से कोई मॉडल मेल नहीं खाता।
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | कुल लागत | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|---|
| #152 | Elephant Alpha none | Openrouter | 3 | 4.6 | $0.000 | 5/21 | 1.22s |
| #153 | Elephant Alpha medium | Openrouter | 2 | 4.5 | $0.000 | 6/21 | 1.27s |
| #154 | Hunter Alpha none | OpenRouter | 2 | 4.5 | $0.000 | 6/18 | 4.70s |
| #157 | GLM 4.7 Flash medium | Z.ai | 2 | 4.3 | $0.054 | 4/21 | 35.1s |
| #158 | Hy3 preview none | Tencent | 4 | 4.3 | $0.003 | 4/21 | 12.9s |
| #159 | MiMo-V2-Flash none | Xiaomi | 2 | 4.3 | $0.025 | 4/21 | 2.76s |
| #160 | Grok Build 0.1 none | X AI | 2 | 4.2 | $0.547 | 7/19 | 28.7s |
| #161 | Grok 4.1 Fast none | X AI | 3 | 4.0 | $0.008 | 3/19 | 1.62s |
| #162 | Laguna Xs.2 none | Poolside | 1 | 4.0 | $0.000 | 5/19 | 806ms |
| #163 | Granite 4.1 8B none | IBM Granite | 4 | 4.0 | $0.003 | 2/21 | 728ms |
| #164 | gpt-oss-120b none | OpenAI | 2 | 4.0 | $0.010 | 6/19 | 21.6s |
| #165 | Qwen3.5-9B medium | Qwen | 1 | 3.8 | $0.036 | 3/21 | 82.2s |
| #166 | Nemotron 3 Nano Omni 30b A3b Reasoning medium | NVIDIA | 1 | 3.6 | $0.000 | 4/19 | 17.1s |
| #167 | Nemotron 3 Nano Omni 30b A3b Reasoning none | NVIDIA | 2 | 3.5 | $0.000 | 2/19 | 728ms |
| #168 | Step 3.5 Flash none | Stepfun | 1 | 2.6 | $0.020 | 6/12 | 39.0s |