AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: कुल लागत ↓.
121/121
मॉडल फ़िल्टर करें
मौजूदा खोज और फ़िल्टर से कोई मॉडल मेल नहीं खाता।
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | कुल लागत | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|---|
| #57 | Claude Opus 4.8 none | Anthropic | 1 | 7.2 | $0.539 | 12/21 | 3.47s |
| #29 | Qwen3.5-27B medium | Qwen | 2 | 7.9 | $0.536 | 13/21 | 68.4s |
| #27 | GPT-5.4 Mini medium | OpenAI | 3 | 8.0 | $0.526 | 12/21 | 22.3s |
| #56 | GLM 5V Turbo medium | Z.ai | 1 | 7.3 | $0.457 | 11/21 | 23.1s |
| #81 | Qwen3.6 27B medium | Qwen | 1 | 6.6 | $0.440 | 10/21 | 59.7s |
| #45 | GPT-5.3 Chat none | OpenAI | 2 | 7.5 | $0.433 | 12/21 | 6.34s |
| #19 | GPT-5.2 Chat none | OpenAI | 1 | 8.5 | $0.393 | 14/21 | 7.13s |
| #24 | Gemini 2.5 Flash medium | 1 | 8.2 | $0.379 | 14/21 | 15.5s | |
| #20 | Step 3.7 Flash medium | Stepfun | 1 | 8.5 | $0.376 | 14/21 | 20.4s |
| #43 | Kimi K2.5 medium | Moonshot AI | 2 | 7.5 | $0.348 | 10/21 | 98.4s |
| #77 | Mimo V2 PRO medium | Xiaomi | 1 | 6.7 | $0.333 | 12/21 | 22.2s |
| #21 | GLM 5 Turbo medium | Z.ai | 1 | 8.4 | $0.323 | 14/21 | 23.0s |
| #55 | Claude Sonnet 4.6 none | Anthropic | 1 | 7.3 | $0.316 | 11/21 | 5.04s |
| #146 | MiniMax M2.5 medium | Minimax | 3 | 4.7 | $0.303 | 5/21 | 65.4s |
| #30 | Qwen3.6 Plus medium | Qwen | 1 | 7.8 | $0.294 | 14/21 | 30.7s |