AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: स्कोर ↑.
121/121
मॉडल फ़िल्टर करें
मौजूदा खोज और फ़िल्टर से कोई मॉडल मेल नहीं खाता।
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | कुल लागत | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|---|
| #99 | Nemotron 3 Ultra 550b A55b none | NVIDIA | 1 | 6.1 | $0.027 | 8/21 | 2.27s |
| #98 | Gemma 4 31B none | 1 | 6.1 | $0.004 | 10/21 | 4.05s | |
| #96 | Gemini 3.1 Flash Lite none | 1 | 6.1 | $0.013 | 9/21 | 1.06s | |
| #95 | Gemini 3.1 Flash Lite Preview high | 1 | 6.1 | $2.310 | 13/16 | 68.1s | |
| #94 | Gemini 3.1 Flash Lite minimal | 3 | 6.1 | $0.013 | 10/21 | 1.33s | |
| #87 | Nemotron 3 Super medium | NVIDIA | 3 | 6.3 | $0.021 | 8/21 | 32.0s |
| #84 | Gemini 3.1 Flash Lite Preview none | 2 | 6.4 | $0.018 | 12/21 | 1.21s | |
| #83 | Gemini 3.1 Flash Lite high | 3 | 6.5 | $2.044 | 10/18 | 62.0s | |
| #82 | Gemini 3.1 Flash Lite Preview low | 1 | 6.5 | $0.026 | 13/21 | 2.77s | |
| #81 | Qwen3.6 27B medium | Qwen | 1 | 6.6 | $0.440 | 10/21 | 59.7s |
| #80 | Step 3.5 Flash medium | Stepfun | 3 | 6.6 | $0.070 | 11/20 | 72.5s |
| #79 | GPT-5 Nano medium | OpenAI | 2 | 6.7 | $0.081 | 9/21 | 42.5s |
| #78 | gpt-oss-120b medium | OpenAI | 3 | 6.7 | $0.013 | 9/21 | 22.3s |
| #77 | Mimo V2 PRO medium | Xiaomi | 1 | 6.7 | $0.333 | 12/21 | 22.2s |
| #76 | MiMo-V2.5 medium | Xiaomi | 1 | 6.7 | $0.063 | 12/21 | 27.1s |