AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: सही परीक्षण ↓.
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #31 | DeepSeek V4 Flash high | DeepSeek | 2 | 7.7 | 13/21 | 45.8s |
| #38 | Grok 4.3 medium | X AI | 2 | 7.6 | 13/21 | 47.5s |
| #40 | Gemini 3.1 Flash Lite Preview medium | 1 | 7.5 | 13/21 | 3.96s | |
| #42 | GPT-5.2 medium | OpenAI | 3 | 7.5 | 13/21 | 16.9s |
| #44 | Gemini 3.1 Flash Lite medium | 1 | 7.5 | 13/21 | 3.23s | |
| #46 | Qwen3.6 35B A3B medium | Qwen | 1 | 7.4 | 13/21 | 18.1s |
| #50 | Gemini 3.1 Flash Lite Preview low | 1 | 7.4 | 13/21 | 2.77s | |
| #39 | Qwen3.6 Flash medium | Qwen | 1 | 7.5 | 12/21 | 19.2s |
| #43 | MiMo-V2.5-Pro medium | Xiaomi | 2 | 7.5 | 12/21 | 26.1s |
| #45 | GPT-5.4 Mini medium | OpenAI | 3 | 7.5 | 12/21 | 22.3s |
| #49 | Qwen3.5-Flash medium | Qwen | 1 | 7.4 | 12/21 | 63.3s |
| #51 | Mimo V2 PRO medium | Xiaomi | 1 | 7.4 | 12/21 | 22.2s |
| #54 | GPT-5 Mini medium | OpenAI | 3 | 7.3 | 12/21 | 23.6s |
| #56 | MiMo-V2.5 medium | Xiaomi | 1 | 7.3 | 12/21 | 27.1s |
| #58 | Gemini 3.1 Flash Lite Preview none | 2 | 7.2 | 12/21 | 1.21s |