AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: स्कोर ↑.
121/121
मॉडल फ़िल्टर करें
मौजूदा खोज और फ़िल्टर से कोई मॉडल मेल नहीं खाता।
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | कुल लागत | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|---|
| #75 | Qwen3.6 35B A3B medium | Qwen | 1 | 6.7 | $0.146 | 13/21 | 18.1s |
| #73 | Mimo V2 Omni medium | Xiaomi | 2 | 6.8 | $0.683 | 10/21 | 41.2s |
| #72 | Ring-2.6-1T medium | Inclusionai | 2 | 6.8 | $0.033 | 11/21 | 61.3s |
| #71 | Gemini 3.5 Flash minimal | 1 | 6.8 | $0.108 | 14/21 | 1.57s | |
| #70 | Qwen3.5-Flash medium | Qwen | 1 | 6.8 | $0.080 | 12/21 | 63.3s |
| #69 | Grok 4.20 Beta medium | X AI | 1 | 6.8 | $0.750 | 14/18 | 9.75s |
| #65 | Kimi K2.7 Code medium | Moonshot AI | 1 | 7.0 | $0.583 | 11/21 | 83.6s |
| #62 | MiMo-V2-Flash medium | Xiaomi | 1 | 7.1 | $0.043 | 12/21 | 20.1s |
| #61 | GLM 5.2 none | Z.ai | 1 | 7.1 | $0.076 | 12/21 | 6.34s |
| #60 | Qwen3.7 Plus none | Qwen | 1 | 7.2 | $0.023 | 10/21 | 2.85s |
| #58 | DeepSeek V4 Pro none | DeepSeek | 2 | 7.2 | $0.034 | 10/21 | 6.41s |
| #57 | Claude Opus 4.8 none | Anthropic | 1 | 7.2 | $0.539 | 12/21 | 3.47s |
| #56 | GLM 5V Turbo medium | Z.ai | 1 | 7.3 | $0.457 | 11/21 | 23.1s |
| #55 | Claude Sonnet 4.6 none | Anthropic | 1 | 7.3 | $0.316 | 11/21 | 5.04s |
| #54 | Hy3 preview medium | Tencent | 1 | 7.3 | $0.021 | 14/21 | 16.3s |