AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: सही परीक्षण ↓.
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #62 | Gemini 2.5 Flash none | 1 | 6.2 | 7/18 | 903ms | |
| #63 | Qwen3.5-35B-A3B none | Qwen | 2 | 6.1 | 7/18 | 3.82s |
| #65 | MiMo-V2-Pro none | Xiaomi | 2 | 6.0 | 7/18 | 2.39s |
| #66 | GPT-5.4 none | OpenAI | 1 | 5.9 | 7/18 | 1.51s |
| #68 | gpt-oss-120b medium | OpenAI | 4 | 5.8 | 7/18 | 16.1s |
| #69 | Kimi K2.6 none | Moonshot AI | 3 | 5.8 | 7/18 | 2.05s |
| #67 | Qwen3.5-27B none | Qwen | 2 | 5.9 | 6/18 | 1.74s |
| #70 | Qwen3.5-122B-A10B none | Qwen | 1 | 5.7 | 6/18 | 3.69s |
| #72 | Hunter Alpha none | OpenRouter | 2 | 5.7 | 6/18 | 4.58s |
| #77 | GLM 5 Turbo none | Z.ai | 2 | 5.5 | 6/18 | 2.94s |
| #71 | MiniMax M2.5 medium | Minimax | 3 | 5.7 | 5/18 | 39.6s |
| #73 | Mistral Small 4 medium | Mistral | 3 | 5.7 | 5/18 | 5.64s |
| #74 | GLM 4.7 Flash none | Z.ai | 2 | 5.6 | 5/18 | 3.35s |
| #75 | GLM 5.1 none | Z.ai | 2 | 5.6 | 5/18 | 4.33s |
| #78 | Trinity Large Preview none | Arcee AI | 2 | 5.3 | 5/18 | 5.07s |