AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: स्कोर ↓.
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #42 | Kimi K2.6 medium | Moonshot AI | 3 | 7.7 | 11/18 | 45.2s |
| #43 | MiMo-V2-Omni medium | Xiaomi | 2 | 7.7 | 11/18 | 16.8s |
| #44 | GPT-5.3 Chat none | OpenAI | 2 | 7.7 | 11/18 | 5.88s |
| #46 | GPT-5.4 Nano medium | OpenAI | 3 | 7.6 | 11/18 | 11.2s |
| #47 | Seed-2.0-Mini medium | Bytedance Seed | 1 | 7.5 | 11/18 | 69.7s |
| #48 | GPT-5.2 medium | OpenAI | 3 | 7.5 | 11/18 | 14.0s |
| #49 | MiMo-V2-Flash medium | Xiaomi | 1 | 7.5 | 11/18 | 23.4s |
| #50 | Claude Sonnet 4.6 none | Anthropic | 1 | 7.4 | 11/18 | 4.98s |
| #52 | GPT-5.4 Mini medium | OpenAI | 5 | 7.3 | 9/18 | 15.2s |
| #53 | GPT-5 Mini medium | OpenAI | 4 | 7.0 | 9/18 | 24.0s |
| #54 | Kimi K2.5 medium | Moonshot AI | 2 | 7.0 | 9/18 | 72.4s |
| #55 | Grok 4.20 medium | X AI | 4 | 7.0 | 9/18 | 10.3s |
| #56 | Gemma 4 31B none | 1 | 6.9 | 10/18 | 4.02s | |
| #57 | DeepSeek V4 Pro high | DeepSeek | 3 | 6.8 | 11/18 | 60.0s |
| #59 | GPT-5.5 none | OpenAI | 1 | 6.8 | 9/18 | 1.83s |