AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें।
119/119
मॉडल फ़िल्टर करें
मौजूदा खोज और फ़िल्टर से कोई मॉडल मेल नहीं खाता।
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | कुल लागत | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|---|
| #134 | MiniMax M2.7 medium | Minimax | 5 | 5.2 | $0.104 | 5/21 | 38.2s |
| #105 | Grok 4.1 Fast medium | X AI | 4 | 6.0 | $0.069 | 9/19 | 23.8s |
| #122 | MiMo-V2.5-Pro none | Xiaomi | 4 | 5.5 | $0.017 | 6/21 | 1.78s |
| #160 | Hy3 preview none | Tencent | 4 | 4.3 | $0.003 | 4/21 | 12.9s |
| #163 | Granite 4.1 8B none | IBM Granite | 4 | 4.0 | $0.003 | 2/21 | 728ms |
| #16 | Gemini 3.1 Flash Lite high | 3 | 8.8 | $2.044 | 10/18 | 62.0s | |
| #19 | GPT-5 Mini medium | OpenAI | 3 | 8.5 | $0.159 | 12/21 | 23.6s |
| #25 | GPT-5.2 medium | OpenAI | 3 | 8.4 | $0.548 | 13/21 | 16.9s |
| #31 | GPT-5.4 Mini medium | OpenAI | 3 | 8.0 | $0.526 | 12/21 | 22.3s |
| #47 | Mercury 2 medium | Inception | 3 | 7.5 | $0.058 | 10/21 | 2.24s |
| #69 | Step 3.5 Flash medium | Stepfun | 3 | 6.9 | $0.070 | 11/20 | 72.5s |
| #80 | gpt-oss-120b medium | OpenAI | 3 | 6.7 | $0.013 | 9/21 | 22.3s |
| #88 | Nemotron 3 Super medium | NVIDIA | 3 | 6.3 | $0.021 | 8/21 | 32.0s |
| #95 | Gemini 3.1 Flash Lite minimal | 3 | 6.1 | $0.013 | 10/21 | 1.33s | |
| #114 | Owl Alpha none | Openrouter | 3 | 5.8 | $0.000 | 7/21 | 9.88s |