AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: स्कोर ↓.
121/121
मॉडल फ़िल्टर करें
मौजूदा खोज और फ़िल्टर से कोई मॉडल मेल नहीं खाता।
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | कुल लागत | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|---|
| #53 | Grok 4.20 medium | X AI | 2 | 7.3 | $0.609 | 12/21 | 27.7s |
| #54 | Hy3 preview medium | Tencent | 1 | 7.3 | $0.021 | 14/21 | 16.3s |
| #55 | Claude Sonnet 4.6 none | Anthropic | 1 | 7.3 | $0.316 | 11/21 | 5.04s |
| #56 | GLM 5V Turbo medium | Z.ai | 1 | 7.3 | $0.457 | 11/21 | 23.1s |
| #57 | Claude Opus 4.8 none | Anthropic | 1 | 7.2 | $0.539 | 12/21 | 3.47s |
| #58 | DeepSeek V4 Pro none | DeepSeek | 2 | 7.2 | $0.034 | 10/21 | 6.41s |
| #60 | Qwen3.7 Plus none | Qwen | 1 | 7.2 | $0.023 | 10/21 | 2.85s |
| #61 | GLM 5.2 none | Z.ai | 1 | 7.1 | $0.076 | 12/21 | 6.34s |
| #62 | MiMo-V2-Flash medium | Xiaomi | 1 | 7.1 | $0.043 | 12/21 | 20.1s |
| #65 | Kimi K2.7 Code medium | Moonshot AI | 1 | 7.0 | $0.583 | 11/21 | 83.6s |
| #69 | Grok 4.20 Beta medium | X AI | 1 | 6.8 | $0.750 | 14/18 | 9.75s |
| #70 | Qwen3.5-Flash medium | Qwen | 1 | 6.8 | $0.080 | 12/21 | 63.3s |
| #71 | Gemini 3.5 Flash minimal | 1 | 6.8 | $0.108 | 14/21 | 1.57s | |
| #72 | Ring-2.6-1T medium | Inclusionai | 2 | 6.8 | $0.033 | 11/21 | 61.3s |
| #73 | Mimo V2 Omni medium | Xiaomi | 2 | 6.8 | $0.683 | 10/21 | 41.2s |