AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: कुल लागत ↑.
121/121
मॉडल फ़िल्टर करें
मौजूदा खोज और फ़िल्टर से कोई मॉडल मेल नहीं खाता।
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | कुल लागत | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|---|
| #111 | Kimi K2.6 none | Moonshot AI | 3 | 5.8 | $0.079 | 7/21 | 13.3s |
| #70 | Qwen3.5-Flash medium | Qwen | 1 | 6.8 | $0.080 | 12/21 | 63.3s |
| #79 | GPT-5 Nano medium | OpenAI | 2 | 6.7 | $0.081 | 9/21 | 42.5s |
| #149 | Grok 4.20 Beta none | X AI | 1 | 4.7 | $0.087 | 6/18 | 1.19s |
| #127 | MiniMax M2.7 medium | Minimax | 5 | 5.2 | $0.104 | 5/21 | 38.2s |
| #51 | MiMo-V2.5-Pro medium | Xiaomi | 2 | 7.4 | $0.106 | 12/21 | 26.1s |
| #46 | GPT-5.4 Nano medium | OpenAI | 2 | 7.5 | $0.107 | 11/21 | 12.0s |
| #71 | Gemini 3.5 Flash minimal | 1 | 6.8 | $0.108 | 14/21 | 1.57s | |
| #112 | GPT-5.4 none | OpenAI | 1 | 5.8 | $0.122 | 7/21 | 1.42s |
| #40 | MiniMax M3 medium | Minimax | 2 | 7.6 | $0.131 | 11/21 | 68.2s |
| #75 | Qwen3.6 35B A3B medium | Qwen | 1 | 6.7 | $0.146 | 13/21 | 18.1s |
| #41 | DeepSeek V4 Pro high | DeepSeek | 2 | 7.6 | $0.157 | 9/21 | 77.2s |
| #16 | GPT-5 Mini medium | OpenAI | 3 | 8.5 | $0.159 | 12/21 | 23.6s |
| #18 | Seed-2.0-Lite medium | Bytedance Seed | 2 | 8.5 | $0.175 | 14/21 | 47.1s |
| #15 | GLM 5 medium | Z.ai | 1 | 8.6 | $0.228 | 15/21 | 33.5s |