AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: स्कोर ↓.
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #24 | HY3 Preview low | Tencent | 2 | 8.1 | 13/18 | 24.0s |
| #26 | Gemini 3.1 Flash Lite Preview low | 1 | 8.1 | 13/18 | 3.22s | |
| #27 | MiMo-V2.5-Pro medium | Xiaomi | 2 | 8.1 | 12/18 | 16.2s |
| #28 | MiMo-V2-Pro medium | Xiaomi | 1 | 8.1 | 12/18 | 12.3s |
| #29 | HY3 Preview medium | Tencent | 2 | 8.1 | 13/18 | 14.6s |
| #30 | Gemma 4 26B A4B medium | 1 | 8.0 | 13/18 | 25.0s | |
| #31 | Grok 4.20 Beta medium | X AI | 3 | 8.0 | 12/18 | 9.81s |
| #33 | DeepSeek V3.2 medium | DeepSeek | 1 | 8.0 | 12/18 | 43.5s |
| #34 | GPT-5.2 Chat none | OpenAI | 1 | 7.9 | 12/18 | 6.84s |
| #35 | Gemini 3.1 Flash Lite Preview none | 2 | 7.9 | 12/18 | 1.30s | |
| #36 | Step 3.5 Flash medium | Stepfun | 3 | 7.9 | 11/17 | 26.8s |
| #37 | DeepSeek V4 Flash high | DeepSeek | 3 | 7.8 | 11/18 | 45.4s |
| #38 | GLM 5V Turbo medium | Z.ai | 2 | 7.8 | 11/18 | 15.0s |
| #39 | Qwen3.5-Flash medium | Qwen | 1 | 7.8 | 11/18 | 66.7s |
| #41 | MiMo-V2.5 medium | Xiaomi | 1 | 7.8 | 12/18 | 13.7s |