AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: स्कोर ↑.
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #49 | MiMo-V2-Flash medium | Xiaomi | 1 | 7.5 | 11/18 | 23.4s |
| #48 | GPT-5.2 medium | OpenAI | 3 | 7.5 | 11/18 | 14.0s |
| #47 | Seed-2.0-Mini medium | Bytedance Seed | 1 | 7.5 | 11/18 | 69.7s |
| #46 | GPT-5.4 Nano medium | OpenAI | 3 | 7.6 | 11/18 | 11.2s |
| #44 | GPT-5.3 Chat none | OpenAI | 2 | 7.7 | 11/18 | 5.88s |
| #43 | MiMo-V2-Omni medium | Xiaomi | 2 | 7.7 | 11/18 | 16.8s |
| #42 | Kimi K2.6 medium | Moonshot AI | 3 | 7.7 | 11/18 | 45.2s |
| #41 | MiMo-V2.5 medium | Xiaomi | 1 | 7.8 | 12/18 | 13.7s |
| #39 | Qwen3.5-Flash medium | Qwen | 1 | 7.8 | 11/18 | 66.7s |
| #38 | GLM 5V Turbo medium | Z.ai | 2 | 7.8 | 11/18 | 15.0s |
| #37 | DeepSeek V4 Flash high | DeepSeek | 3 | 7.8 | 11/18 | 45.4s |
| #36 | Step 3.5 Flash medium | Stepfun | 3 | 7.9 | 11/17 | 26.8s |
| #35 | Gemini 3.1 Flash Lite Preview none | 2 | 7.9 | 12/18 | 1.30s | |
| #34 | GPT-5.2 Chat none | OpenAI | 1 | 7.9 | 12/18 | 6.84s |
| #33 | DeepSeek V3.2 medium | DeepSeek | 1 | 8.0 | 12/18 | 43.5s |