AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: स्कोर ↓.
121/121
मॉडल फ़िल्टर करें
मौजूदा खोज और फ़िल्टर से कोई मॉडल मेल नहीं खाता।
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | कुल लागत | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|---|
| #8 | Gemini 3.5 Flash medium | 1 | 9.1 | $0.582 | 18/21 | 4.94s | |
| #10 | GPT-5.3-Codex medium | OpenAI | 2 | 8.9 | $0.740 | 15/21 | 16.2s |
| #15 | GLM 5 medium | Z.ai | 1 | 8.6 | $0.228 | 15/21 | 33.5s |
| #16 | GPT-5 Mini medium | OpenAI | 3 | 8.5 | $0.159 | 12/21 | 23.6s |
| #17 | GPT-5.4 medium | OpenAI | 2 | 8.5 | $1.210 | 14/21 | 22.3s |
| #18 | Seed-2.0-Lite medium | Bytedance Seed | 2 | 8.5 | $0.175 | 14/21 | 47.1s |
| #19 | GPT-5.2 Chat none | OpenAI | 1 | 8.5 | $0.393 | 14/21 | 7.13s |
| #20 | Step 3.7 Flash medium | Stepfun | 1 | 8.5 | $0.376 | 14/21 | 20.4s |
| #21 | GLM 5 Turbo medium | Z.ai | 1 | 8.4 | $0.323 | 14/21 | 23.0s |
| #22 | GPT-5.2 medium | OpenAI | 3 | 8.4 | $0.548 | 13/21 | 16.9s |
| #23 | DeepSeek V4 Flash high | DeepSeek | 2 | 8.3 | $0.027 | 13/21 | 45.8s |
| #24 | Gemini 2.5 Flash medium | 1 | 8.2 | $0.379 | 14/21 | 15.5s | |
| #27 | GPT-5.4 Mini medium | OpenAI | 3 | 8.0 | $0.526 | 12/21 | 22.3s |
| #29 | Qwen3.5-27B medium | Qwen | 2 | 7.9 | $0.536 | 13/21 | 68.4s |
| #30 | Qwen3.6 Plus medium | Qwen | 1 | 7.8 | $0.294 | 14/21 | 30.7s |