AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: स्कोर ↑.
121/121
मॉडल फ़िल्टर करें
मौजूदा खोज और फ़िल्टर से कोई मॉडल मेल नहीं खाता।
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | कुल लागत | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|---|
| #32 | Gemini 3.1 Flash Lite Preview medium | 1 | 7.8 | $0.068 | 13/21 | 3.96s | |
| #30 | Qwen3.6 Plus medium | Qwen | 1 | 7.8 | $0.294 | 14/21 | 30.7s |
| #29 | Qwen3.5-27B medium | Qwen | 2 | 7.9 | $0.536 | 13/21 | 68.4s |
| #27 | GPT-5.4 Mini medium | OpenAI | 3 | 8.0 | $0.526 | 12/21 | 22.3s |
| #24 | Gemini 2.5 Flash medium | 1 | 8.2 | $0.379 | 14/21 | 15.5s | |
| #23 | DeepSeek V4 Flash high | DeepSeek | 2 | 8.3 | $0.027 | 13/21 | 45.8s |
| #22 | GPT-5.2 medium | OpenAI | 3 | 8.4 | $0.548 | 13/21 | 16.9s |
| #21 | GLM 5 Turbo medium | Z.ai | 1 | 8.4 | $0.323 | 14/21 | 23.0s |
| #20 | Step 3.7 Flash medium | Stepfun | 1 | 8.5 | $0.376 | 14/21 | 20.4s |
| #18 | Seed-2.0-Lite medium | Bytedance Seed | 2 | 8.5 | $0.175 | 14/21 | 47.1s |
| #19 | GPT-5.2 Chat none | OpenAI | 1 | 8.5 | $0.393 | 14/21 | 7.13s |
| #17 | GPT-5.4 medium | OpenAI | 2 | 8.5 | $1.210 | 14/21 | 22.3s |
| #16 | GPT-5 Mini medium | OpenAI | 3 | 8.5 | $0.159 | 12/21 | 23.6s |
| #15 | GLM 5 medium | Z.ai | 1 | 8.6 | $0.228 | 15/21 | 33.5s |
| #10 | GPT-5.3-Codex medium | OpenAI | 2 | 8.9 | $0.740 | 15/21 | 16.2s |