AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: कुल लागत ↓.
121/121
मॉडल फ़िल्टर करें
मौजूदा खोज और फ़िल्टर से कोई मॉडल मेल नहीं खाता।
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | कुल लागत | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|---|
| #114 | Mimo V2 Omni none | Xiaomi | 1 | 5.7 | $0.021 | 8/21 | 2.44s |
| #87 | Nemotron 3 Super medium | NVIDIA | 3 | 6.3 | $0.021 | 8/21 | 32.0s |
| #168 | Step 3.5 Flash none | Stepfun | 1 | 2.6 | $0.020 | 6/12 | 39.0s |
| #125 | Qwen3.5-122B-A10B none | Qwen | 2 | 5.3 | $0.020 | 6/21 | 3.41s |
| #84 | Gemini 3.1 Flash Lite Preview none | 2 | 6.4 | $0.018 | 12/21 | 1.21s | |
| #126 | DeepSeek V3.2 none | DeepSeek | 1 | 5.3 | $0.017 | 6/21 | 13.8s |
| #119 | MiMo-V2.5-Pro none | Xiaomi | 4 | 5.5 | $0.017 | 6/21 | 1.78s |
| #104 | Qwen3.5-27B none | Qwen | 2 | 5.9 | $0.015 | 7/21 | 1.68s |
| #102 | Qwen3.6 Flash none | Qwen | 1 | 6.0 | $0.015 | 7/21 | 1.60s |
| #94 | Gemini 3.1 Flash Lite minimal | 3 | 6.1 | $0.013 | 10/21 | 1.33s | |
| #96 | Gemini 3.1 Flash Lite none | 1 | 6.1 | $0.013 | 9/21 | 1.06s | |
| #78 | gpt-oss-120b medium | OpenAI | 3 | 6.7 | $0.013 | 9/21 | 22.3s |
| #103 | Qwen3.5-35B-A3B none | Qwen | 2 | 5.9 | $0.012 | 7/21 | 3.37s |
| #151 | Mercury 2 none | Inception | 1 | 4.6 | $0.011 | 4/21 | 653ms |
| #145 | GPT-5.4 Nano none | OpenAI | 2 | 4.8 | $0.011 | 4/21 | 1.48s |