AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: स्कोर ↑.
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #84 | Hunter Alpha none | OpenRouter | 2 | 5.7 | 6/18 | 4.58s |
| #83 | MiniMax M2.5 medium | Minimax | 3 | 5.7 | 5/18 | 39.6s |
| #82 | Qwen3.5-122B-A10B none | Qwen | 1 | 5.7 | 6/18 | 3.69s |
| #81 | MiMo-V2.5-Pro none | Xiaomi | 2 | 5.8 | 6/18 | 1.51s |
| #80 | Kimi K2.6 none | Moonshot AI | 3 | 5.8 | 7/18 | 2.05s |
| #79 | gpt-oss-120b medium | OpenAI | 4 | 5.8 | 7/18 | 16.1s |
| #78 | Qwen3.5-27B none | Qwen | 2 | 5.9 | 6/18 | 1.74s |
| #77 | GPT-5.4 none | OpenAI | 1 | 5.9 | 7/18 | 1.51s |
| #76 | MiMo-V2-Pro none | Xiaomi | 2 | 6.0 | 7/18 | 2.39s |
| #74 | Qwen3.5-35B-A3B none | Qwen | 2 | 6.1 | 7/18 | 3.82s |
| #73 | Gemini 2.5 Flash none | 1 | 6.2 | 7/18 | 903ms | |
| #71 | Gemma 4 26B A4B none | 3 | 6.2 | 7/18 | 6.59s | |
| #70 | Qwen3.5-Flash none | Qwen | 1 | 6.2 | 8/18 | 3.25s |
| #69 | GLM 5V Turbo none | Z.ai | 2 | 6.2 | 8/18 | 3.10s |
| #68 | GPT-5 Nano medium | OpenAI | 3 | 6.3 | 7/18 | 44.1s |