AI BENCHY श्रेणी विफलताएँ
पहेली समाधान: निर्देशों का पालन नहीं किया
पहेली समाधान
निर्देशों का पालन नहीं किया
देखें कि पहेली समाधान में किन AI मॉडलों में निर्देशों का पालन नहीं किया आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: विफलता संख्या ↑.
विफलता के कारण
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | श्रेणी स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #12 | Gemini 3.1 Flash Lite Preview high | 1 | 7.7 | 2/3 | 46.7s | |
| #15 | GPT-5.3-Codex medium | OpenAI | 1 | 9.0 | 2/3 | 5.05s |
| #19 | Seed-2.0-Lite medium | Bytedance Seed | 1 | 9.0 | 2/3 | 10.2s |
| #21 | GPT-5.4 medium | OpenAI | 1 | 8.2 | 2/3 | 9.14s |
| #23 | GLM 5 Turbo medium | Z.ai | 1 | 8.7 | 2/3 | 5.23s |
| #30 | Qwen3.5-27B medium | Qwen | 1 | 8.2 | 2/3 | 59.6s |
| #31 | DeepSeek V4 Flash high | DeepSeek | 1 | 8.2 | 2/3 | 26.1s |
| #33 | Hy3 preview medium | Tencent | 1 | 7.7 | 2/3 | 11.1s |
| #38 | Grok 4.3 medium | X AI | 1 | 5.9 | 1/3 | 22.5s |
| #39 | Qwen3.6 Flash medium | Qwen | 1 | 8.2 | 2/3 | 6.29s |
| #42 | GPT-5.2 medium | OpenAI | 1 | 7.5 | 2/3 | 5.80s |
| #43 | MiMo-V2.5-Pro medium | Xiaomi | 1 | 6.7 | 1/3 | 5.31s |
| #45 | GPT-5.4 Mini medium | OpenAI | 1 | 7.8 | 2/3 | 4.37s |
| #51 | Mimo V2 PRO medium | Xiaomi | 1 | 6.4 | 1/3 | 5.08s |
| #54 | GPT-5 Mini medium | OpenAI | 1 | 5.6 | 1/3 | 15.2s |