AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: स्कोर ↓.
121/121
मॉडल फ़िल्टर करें
मौजूदा खोज और फ़िल्टर से कोई मॉडल मेल नहीं खाता।
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | कुल लागत | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|---|
| #75 | Qwen3.6 35B A3B medium | Qwen | 1 | 6.7 | $0.146 | 13/21 | 18.1s |
| #76 | MiMo-V2.5 medium | Xiaomi | 1 | 6.7 | $0.063 | 12/21 | 27.1s |
| #77 | Mimo V2 PRO medium | Xiaomi | 1 | 6.7 | $0.333 | 12/21 | 22.2s |
| #78 | gpt-oss-120b medium | OpenAI | 3 | 6.7 | $0.013 | 9/21 | 22.3s |
| #79 | GPT-5 Nano medium | OpenAI | 2 | 6.7 | $0.081 | 9/21 | 42.5s |
| #80 | Step 3.5 Flash medium | Stepfun | 3 | 6.6 | $0.070 | 11/20 | 72.5s |
| #81 | Qwen3.6 27B medium | Qwen | 1 | 6.6 | $0.440 | 10/21 | 59.7s |
| #82 | Gemini 3.1 Flash Lite Preview low | 1 | 6.5 | $0.026 | 13/21 | 2.77s | |
| #83 | Gemini 3.1 Flash Lite high | 3 | 6.5 | $2.044 | 10/18 | 62.0s | |
| #84 | Gemini 3.1 Flash Lite Preview none | 2 | 6.4 | $0.018 | 12/21 | 1.21s | |
| #87 | Nemotron 3 Super medium | NVIDIA | 3 | 6.3 | $0.021 | 8/21 | 32.0s |
| #94 | Gemini 3.1 Flash Lite minimal | 3 | 6.1 | $0.013 | 10/21 | 1.33s | |
| #95 | Gemini 3.1 Flash Lite Preview high | 1 | 6.1 | $2.310 | 13/16 | 68.1s | |
| #96 | Gemini 3.1 Flash Lite none | 1 | 6.1 | $0.013 | 9/21 | 1.06s | |
| #98 | Gemma 4 31B none | 1 | 6.1 | $0.004 | 10/21 | 4.05s |