AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: स्कोर ↑.
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #13 | Qwen3.5-27B medium | Qwen | 2 | 8.4 | 13/18 | 53.0s |
| #12 | Qwen3.6 Plus Preview medium | Qwen | 1 | 8.5 | 13/17 | 13.9s |
| #11 | HY3 Preview high | Tencent | 2 | 8.5 | 13/18 | 55.2s |
| #9 | GPT-5.3-Codex medium | OpenAI | 2 | 8.6 | 13/18 | 15.4s |
| #8 | Seed-2.0-Lite medium | Bytedance Seed | 2 | 8.6 | 13/18 | 30.4s |
| #6 | GPT-5.5 medium | OpenAI | 1 | 9.0 | 15/18 | 32.8s |
| #5 | GPT-5.5 low | OpenAI | 1 | 9.0 | 15/18 | 8.39s |