AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: कुल लागत ↑.
121/121
मॉडल फ़िल्टर करें
मौजूदा खोज और फ़िल्टर से कोई मॉडल मेल नहीं खाता।
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | कुल लागत | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|---|
| #164 | gpt-oss-120b none | OpenAI | 2 | 4.0 | $0.010 | 6/19 | 21.6s |
| #145 | GPT-5.4 Nano none | OpenAI | 2 | 4.8 | $0.011 | 4/21 | 1.48s |
| #151 | Mercury 2 none | Inception | 1 | 4.6 | $0.011 | 4/21 | 653ms |
| #103 | Qwen3.5-35B-A3B none | Qwen | 2 | 5.9 | $0.012 | 7/21 | 3.37s |
| #78 | gpt-oss-120b medium | OpenAI | 3 | 6.7 | $0.013 | 9/21 | 22.3s |
| #96 | Gemini 3.1 Flash Lite none | 1 | 6.1 | $0.013 | 9/21 | 1.06s | |
| #94 | Gemini 3.1 Flash Lite minimal | 3 | 6.1 | $0.013 | 10/21 | 1.33s | |
| #102 | Qwen3.6 Flash none | Qwen | 1 | 6.0 | $0.015 | 7/21 | 1.60s |
| #104 | Qwen3.5-27B none | Qwen | 2 | 5.9 | $0.015 | 7/21 | 1.68s |
| #119 | MiMo-V2.5-Pro none | Xiaomi | 4 | 5.5 | $0.017 | 6/21 | 1.78s |
| #126 | DeepSeek V3.2 none | DeepSeek | 1 | 5.3 | $0.017 | 6/21 | 13.8s |
| #84 | Gemini 3.1 Flash Lite Preview none | 2 | 6.4 | $0.018 | 12/21 | 1.21s | |
| #125 | Qwen3.5-122B-A10B none | Qwen | 2 | 5.3 | $0.020 | 6/21 | 3.41s |
| #168 | Step 3.5 Flash none | Stepfun | 1 | 2.6 | $0.020 | 6/12 | 39.0s |
| #87 | Nemotron 3 Super medium | NVIDIA | 3 | 6.3 | $0.021 | 8/21 | 32.0s |