AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: स्कोर ↓.
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #60 | Hunter Alpha medium | OpenRouter | 2 | 6.7 | 8/18 | 10.3s |
| #61 | Nemotron 3 Super medium | NVIDIA | 4 | 6.7 | 9/18 | 19.1s |
| #62 | DeepSeek V4 Pro none | DeepSeek | 1 | 6.7 | 9/18 | 23.3s |
| #63 | Grok 4.1 Fast medium | X AI | 4 | 6.7 | 9/18 | 23.9s |
| #65 | Mercury 2 medium | Inception | 4 | 6.5 | 8/18 | 2.21s |
| #66 | MiMo-V2-Omni none | Xiaomi | 2 | 6.5 | 8/18 | 1.99s |
| #67 | Grok 4.20 Multi Agent Beta medium | X AI | 4 | 6.4 | 7/18 | 9.80s |
| #68 | GPT-5 Nano medium | OpenAI | 3 | 6.3 | 7/18 | 44.1s |
| #69 | GLM 5V Turbo none | Z.ai | 2 | 6.2 | 8/18 | 3.10s |
| #70 | Qwen3.5-Flash none | Qwen | 1 | 6.2 | 8/18 | 3.25s |
| #71 | Gemma 4 26B A4B none | 3 | 6.2 | 7/18 | 6.59s | |
| #73 | Gemini 2.5 Flash none | 1 | 6.2 | 7/18 | 903ms | |
| #74 | Qwen3.5-35B-A3B none | Qwen | 2 | 6.1 | 7/18 | 3.82s |
| #76 | MiMo-V2-Pro none | Xiaomi | 2 | 6.0 | 7/18 | 2.39s |
| #77 | GPT-5.4 none | OpenAI | 1 | 5.9 | 7/18 | 1.51s |