AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: स्कोर ↓.
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #78 | Qwen3.5-27B none | Qwen | 2 | 5.9 | 6/18 | 1.74s |
| #79 | gpt-oss-120b medium | OpenAI | 4 | 5.8 | 7/18 | 16.1s |
| #80 | Kimi K2.6 none | Moonshot AI | 3 | 5.8 | 7/18 | 2.05s |
| #81 | MiMo-V2.5-Pro none | Xiaomi | 2 | 5.8 | 6/18 | 1.51s |
| #82 | Qwen3.5-122B-A10B none | Qwen | 1 | 5.7 | 6/18 | 3.69s |
| #83 | MiniMax M2.5 medium | Minimax | 3 | 5.7 | 5/18 | 39.6s |
| #84 | Hunter Alpha none | OpenRouter | 2 | 5.7 | 6/18 | 4.58s |
| #85 | Mistral Small 4 medium | Mistral | 3 | 5.7 | 5/18 | 5.64s |
| #86 | GLM 4.7 Flash none | Z.ai | 2 | 5.6 | 5/18 | 3.35s |
| #87 | GLM 5.1 none | Z.ai | 2 | 5.6 | 5/18 | 4.33s |
| #89 | GLM 5 Turbo none | Z.ai | 2 | 5.5 | 6/18 | 2.94s |
| #90 | Ling 2.6 Flash none | Inclusionai | 3 | 5.4 | 6/18 | 11.3s |
| #91 | Trinity Large Preview none | Arcee AI | 2 | 5.3 | 5/18 | 5.07s |
| #92 | DeepSeek V4 Flash none | DeepSeek | 2 | 5.3 | 5/18 | 29.4s |
| #93 | Grok 4.20 Beta none | X AI | 3 | 5.3 | 4/18 | 1.19s |