AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: कुल लागत ↓.
121/121
मॉडल फ़िल्टर करें
मौजूदा खोज और फ़िल्टर से कोई मॉडल मेल नहीं खाता।
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | कुल लागत | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|---|
| #47 | Qwen3.6 Flash medium | Qwen | 1 | 7.5 | $0.288 | 12/21 | 19.2s |
| #15 | GLM 5 medium | Z.ai | 1 | 8.6 | $0.228 | 15/21 | 33.5s |
| #18 | Seed-2.0-Lite medium | Bytedance Seed | 2 | 8.5 | $0.175 | 14/21 | 47.1s |
| #16 | GPT-5 Mini medium | OpenAI | 3 | 8.5 | $0.159 | 12/21 | 23.6s |
| #41 | DeepSeek V4 Pro high | DeepSeek | 2 | 7.6 | $0.157 | 9/21 | 77.2s |
| #75 | Qwen3.6 35B A3B medium | Qwen | 1 | 6.7 | $0.146 | 13/21 | 18.1s |
| #40 | MiniMax M3 medium | Minimax | 2 | 7.6 | $0.131 | 11/21 | 68.2s |
| #112 | GPT-5.4 none | OpenAI | 1 | 5.8 | $0.122 | 7/21 | 1.42s |
| #71 | Gemini 3.5 Flash minimal | 1 | 6.8 | $0.108 | 14/21 | 1.57s | |
| #46 | GPT-5.4 Nano medium | OpenAI | 2 | 7.5 | $0.107 | 11/21 | 12.0s |
| #51 | MiMo-V2.5-Pro medium | Xiaomi | 2 | 7.4 | $0.106 | 12/21 | 26.1s |
| #127 | MiniMax M2.7 medium | Minimax | 5 | 5.2 | $0.104 | 5/21 | 38.2s |
| #149 | Grok 4.20 Beta none | X AI | 1 | 4.7 | $0.087 | 6/18 | 1.19s |
| #79 | GPT-5 Nano medium | OpenAI | 2 | 6.7 | $0.081 | 9/21 | 42.5s |
| #70 | Qwen3.5-Flash medium | Qwen | 1 | 6.8 | $0.080 | 12/21 | 63.3s |