AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: कुल लागत ↑.
121/121
मॉडल फ़िल्टर करें
मौजूदा खोज और फ़िल्टर से कोई मॉडल मेल नहीं खाता।
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | कुल लागत | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|---|
| #47 | Qwen3.6 Flash medium | Qwen | 1 | 7.5 | $0.288 | 12/21 | 19.2s |
| #30 | Qwen3.6 Plus medium | Qwen | 1 | 7.8 | $0.294 | 14/21 | 30.7s |
| #146 | MiniMax M2.5 medium | Minimax | 3 | 4.7 | $0.303 | 5/21 | 65.4s |
| #55 | Claude Sonnet 4.6 none | Anthropic | 1 | 7.3 | $0.316 | 11/21 | 5.04s |
| #21 | GLM 5 Turbo medium | Z.ai | 1 | 8.4 | $0.323 | 14/21 | 23.0s |
| #77 | Mimo V2 PRO medium | Xiaomi | 1 | 6.7 | $0.333 | 12/21 | 22.2s |
| #43 | Kimi K2.5 medium | Moonshot AI | 2 | 7.5 | $0.348 | 10/21 | 98.4s |
| #20 | Step 3.7 Flash medium | Stepfun | 1 | 8.5 | $0.376 | 14/21 | 20.4s |
| #24 | Gemini 2.5 Flash medium | 1 | 8.2 | $0.379 | 14/21 | 15.5s | |
| #19 | GPT-5.2 Chat none | OpenAI | 1 | 8.5 | $0.393 | 14/21 | 7.13s |
| #45 | GPT-5.3 Chat none | OpenAI | 2 | 7.5 | $0.433 | 12/21 | 6.34s |
| #81 | Qwen3.6 27B medium | Qwen | 1 | 6.6 | $0.440 | 10/21 | 59.7s |
| #56 | GLM 5V Turbo medium | Z.ai | 1 | 7.3 | $0.457 | 11/21 | 23.1s |
| #27 | GPT-5.4 Mini medium | OpenAI | 3 | 8.0 | $0.526 | 12/21 | 22.3s |
| #29 | Qwen3.5-27B medium | Qwen | 2 | 7.9 | $0.536 | 13/21 | 68.4s |