AI BENCHY श्रेणी विफलताएँ
निर्देश पालन: गलत उत्तर
निर्देश पालन
गलत उत्तर
देखें कि निर्देश पालन में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.
विफलता के कारण
| रैंक | मॉडल | कंपनी | गलत उत्तर संख्या | श्रेणी स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #80 | MiniMax M2.7 medium | Minimax | 1 | 3.7 | 0/2 | 12.6s |
| #59 | Qwen3.5-Flash none | Qwen | 1 | 6.3 | 1/2 | 8.81s |
| #87 | Qwen3 Coder Next none | Qwen | 2 | 4.8 | 0/2 | 7.71s |
| #33 | GLM 5.1 medium | Z.ai | 1 | 6.4 | 1/2 | 7.47s |
| #92 | Qwen3 Coder Next medium | Qwen | 1 | 4.8 | 0/2 | 7.34s |
| #28 | GPT-5.2 Chat none | OpenAI | 1 | 7.5 | 1/2 | 5.46s |
| #55 | MiMo-V2-Omni none | Xiaomi | 1 | 6.5 | 1/2 | 4.18s |
| #36 | GPT-5.3 Chat none | OpenAI | 1 | 8.3 | 1/2 | 3.29s |
| #93 | GLM 4.7 Flash medium | Z.ai | 1 | 6.2 | 1/2 | 2.97s |
| #48 | Gemma 4 31B none | 1 | 6.5 | 1/2 | 2.84s | |
| #72 | Hunter Alpha none | OpenRouter | 1 | 6.4 | 1/2 | 2.82s |
| #76 | Kimi K2.5 none | Moonshot AI | 1 | 6.5 | 1/2 | 2.67s |
| #65 | MiMo-V2-Pro none | Xiaomi | 1 | 6.5 | 1/2 | 2.51s |
| #77 | GLM 5 Turbo none | Z.ai | 1 | 6.5 | 1/2 | 2.13s |
| #58 | GLM 5V Turbo none | Z.ai | 1 | 6.5 | 1/2 | 1.97s |