AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: स्कोर ↓.
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #5 | GPT-5.5 low | OpenAI | 1 | 9.0 | 15/18 | 8.39s |
| #6 | GPT-5.5 medium | OpenAI | 1 | 9.0 | 15/18 | 32.8s |
| #8 | Seed-2.0-Lite medium | Bytedance Seed | 2 | 8.6 | 13/18 | 30.4s |
| #9 | GPT-5.3-Codex medium | OpenAI | 2 | 8.6 | 13/18 | 15.4s |
| #11 | HY3 Preview high | Tencent | 2 | 8.5 | 13/18 | 55.2s |
| #12 | Qwen3.6 Plus Preview medium | Qwen | 1 | 8.5 | 13/17 | 13.9s |
| #13 | Qwen3.5-27B medium | Qwen | 2 | 8.4 | 13/18 | 53.0s |
| #14 | Gemini 3.1 Flash Lite Preview high | 1 | 8.4 | 12/16 | 68.8s | |
| #16 | GLM 5 medium | Z.ai | 1 | 8.4 | 13/18 | 23.3s |
| #17 | Gemma 4 31B medium | 1 | 8.3 | 13/18 | 24.9s | |
| #18 | Gemini 2.5 Flash medium | 1 | 8.2 | 13/18 | 12.1s | |
| #19 | GPT-5.4 medium | OpenAI | 2 | 8.2 | 13/18 | 18.6s |
| #20 | Gemini 3.1 Flash Lite Preview medium | 1 | 8.2 | 13/18 | 3.74s | |
| #21 | GLM 5 Turbo medium | Z.ai | 2 | 8.1 | 12/18 | 17.7s |
| #23 | Qwen3.6 Plus medium | Qwen | 1 | 8.1 | 13/18 | 15.3s |