AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #96 | Ring-2.6-1T none | Inclusionai | 2 | 6.2 | 9/21 | 55.1s |
| #38 | Grok 4.3 medium | X AI | 2 | 7.6 | 13/21 | 47.5s |
| #19 | Seed-2.0-Lite medium | Bytedance Seed | 2 | 8.2 | 14/21 | 47.1s |
| #31 | DeepSeek V4 Flash high | DeepSeek | 2 | 7.7 | 13/21 | 45.8s |
| #94 | GPT-5 Nano medium | OpenAI | 2 | 6.3 | 9/21 | 42.5s |
| #80 | Mimo V2 Omni medium | Xiaomi | 2 | 6.7 | 10/21 | 41.2s |
| #119 | Cobuddy medium | Baidu | 3 | 5.6 | 7/21 | 39.9s |
| #83 | Step 3.5 Flash none | Stepfun | 1 | 6.6 | 6/12 | 39.0s |
| #130 | MiniMax M2.7 medium | Minimax | 5 | 5.3 | 5/21 | 38.2s |
| #158 | GLM 4.7 Flash medium | Z.ai | 2 | 4.4 | 4/21 | 35.1s |
| #17 | GLM 5 medium | Z.ai | 1 | 8.3 | 15/21 | 33.5s |
| #105 | Nemotron 3 Super medium | NVIDIA | 3 | 5.8 | 8/21 | 32.0s |
| #26 | Qwen3.6 Plus medium | Qwen | 1 | 7.9 | 14/21 | 30.7s |
| #100 | Grok Build 0.1 none | X AI | 2 | 6.0 | 7/19 | 28.7s |
| #65 | Grok 4.20 medium | X AI | 2 | 7.1 | 12/21 | 27.7s |