AI BENCHY श्रेणी विफलताएँ
निर्देश पालन: निर्देशों का पालन नहीं किया
निर्देश पालन
निर्देशों का पालन नहीं किया
देखें कि निर्देश पालन में किन AI मॉडलों में निर्देशों का पालन नहीं किया आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.
विफलता के कारण
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | श्रेणी स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #82 | Grok 4.20 none | X AI | 1 | 4.8 | 0/2 | 455ms |
| #79 | Grok 4.20 Beta none | X AI | 1 | 4.8 | 0/2 | 687ms |
| #96 | GPT-5.4 Nano none | OpenAI | 1 | 5.0 | 0/2 | 787ms |
| #60 | Gemma 4 26B A4B none | 1 | 4.4 | 0/2 | 1.08s | |
| #78 | Trinity Large Preview none | Arcee AI | 1 | 4.1 | 0/2 | 1.09s |
| #89 | GPT-4o-mini none | OpenAI | 1 | 4.8 | 0/2 | 1.27s |
| #88 | Nemotron 3 Super none | NVIDIA | 1 | 4.9 | 0/2 | 1.50s |
| #75 | GLM 5.1 none | Z.ai | 1 | 8.3 | 1/2 | 1.58s |
| #44 | GPT-5.4 Mini medium | OpenAI | 1 | 7.4 | 1/2 | 2.50s |
| #56 | Grok 4.20 Multi Agent Beta medium | X AI | 1 | 8.3 | 1/2 | 4.63s |
| #71 | MiniMax M2.5 medium | Minimax | 1 | 8.1 | 1/2 | 4.64s |
| #35 | MiMo-V2-Omni medium | Xiaomi | 1 | 8.3 | 1/2 | 4.92s |
| #25 | Grok 4.20 Beta medium | X AI | 1 | 8.3 | 1/2 | 4.97s |
| #30 | Step 3.5 Flash medium | Stepfun | 1 | 8.5 | 1/2 | 4.98s |
| #84 | gpt-oss-120b none | OpenAI | 1 | 8.4 | 1/2 | 5.10s |