AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: सही परीक्षण ↓.
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #83 | Step 3.5 Flash none | Stepfun | 1 | 6.6 | 6/12 | 39.0s |
| #76 | Kimi K2.5 medium | Moonshot AI | 2 | 6.8 | 10/21 | 98.4s |
| #78 | Qwen3.6 27B medium | Qwen | 1 | 6.8 | 10/21 | 59.7s |
| #80 | Mimo V2 Omni medium | Xiaomi | 2 | 6.7 | 10/21 | 41.2s |
| #81 | Mercury 2 medium | Inception | 3 | 6.6 | 10/21 | 2.24s |
| #85 | Gemma 4 31B none | 1 | 6.5 | 10/21 | 4.05s | |
| #87 | Gemini 3.1 Flash Lite minimal | 3 | 6.4 | 10/21 | 1.33s | |
| #88 | Qwen3.7 Plus none | Qwen | 1 | 6.4 | 10/21 | 2.85s |
| #86 | Grok 4.1 Fast medium | X AI | 4 | 6.5 | 9/19 | 23.8s |
| #92 | Laguna M.1 medium | Poolside | 1 | 6.4 | 9/19 | 14.7s |
| #79 | Hunter Alpha medium | OpenRouter | 2 | 6.7 | 8/18 | 10.3s |
| #84 | Grok 4.20 Multi Agent Beta medium | X AI | 2 | 6.6 | 8/18 | 9.69s |
| #90 | Gemini 3.1 Flash Lite none | 1 | 6.4 | 9/21 | 1.06s | |
| #94 | GPT-5 Nano medium | OpenAI | 2 | 6.3 | 9/21 | 42.5s |
| #96 | Ring-2.6-1T none | Inclusionai | 2 | 6.2 | 9/21 | 55.1s |