AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: स्कोर ↑.
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #31 | Grok 4.20 Beta medium | X AI | 3 | 8.0 | 12/18 | 9.81s |
| #30 | Gemma 4 26B A4B medium | 1 | 8.0 | 13/18 | 25.0s | |
| #29 | HY3 Preview medium | Tencent | 2 | 8.1 | 13/18 | 14.6s |
| #28 | MiMo-V2-Pro medium | Xiaomi | 1 | 8.1 | 12/18 | 12.3s |
| #27 | MiMo-V2.5-Pro medium | Xiaomi | 2 | 8.1 | 12/18 | 16.2s |
| #26 | Gemini 3.1 Flash Lite Preview low | 1 | 8.1 | 13/18 | 3.22s | |
| #24 | HY3 Preview low | Tencent | 2 | 8.1 | 13/18 | 24.0s |
| #23 | Qwen3.6 Plus medium | Qwen | 1 | 8.1 | 13/18 | 15.3s |
| #21 | GLM 5 Turbo medium | Z.ai | 2 | 8.1 | 12/18 | 17.7s |
| #20 | Gemini 3.1 Flash Lite Preview medium | 1 | 8.2 | 13/18 | 3.74s | |
| #19 | GPT-5.4 medium | OpenAI | 2 | 8.2 | 13/18 | 18.6s |
| #18 | Gemini 2.5 Flash medium | 1 | 8.2 | 13/18 | 12.1s | |
| #17 | Gemma 4 31B medium | 1 | 8.3 | 13/18 | 24.9s | |
| #16 | GLM 5 medium | Z.ai | 1 | 8.4 | 13/18 | 23.3s |
| #14 | Gemini 3.1 Flash Lite Preview high | 1 | 8.4 | 12/16 | 68.8s |