AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: स्कोर ↑.
121/121
मॉडल फ़िल्टर करें
मौजूदा खोज और फ़िल्टर से कोई मॉडल मेल नहीं खाता।
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | कुल लागत | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|---|
| #53 | Grok 4.20 medium | X AI | 2 | 7.3 | $0.609 | 12/21 | 27.7s |
| #51 | MiMo-V2.5-Pro medium | Xiaomi | 2 | 7.4 | $0.106 | 12/21 | 26.1s |
| #50 | Seed-2.0-Mini medium | Bytedance Seed | 1 | 7.4 | $0.044 | 11/21 | 80.2s |
| #48 | DeepSeek V3.2 medium | DeepSeek | 1 | 7.5 | $0.044 | 11/21 | 68.7s |
| #47 | Qwen3.6 Flash medium | Qwen | 1 | 7.5 | $0.288 | 12/21 | 19.2s |
| #46 | GPT-5.4 Nano medium | OpenAI | 2 | 7.5 | $0.107 | 11/21 | 12.0s |
| #45 | GPT-5.3 Chat none | OpenAI | 2 | 7.5 | $0.433 | 12/21 | 6.34s |
| #44 | Mercury 2 medium | Inception | 3 | 7.5 | $0.058 | 10/21 | 2.24s |
| #43 | Kimi K2.5 medium | Moonshot AI | 2 | 7.5 | $0.348 | 10/21 | 98.4s |
| #41 | DeepSeek V4 Pro high | DeepSeek | 2 | 7.6 | $0.157 | 9/21 | 77.2s |
| #40 | MiniMax M3 medium | Minimax | 2 | 7.6 | $0.131 | 11/21 | 68.2s |
| #38 | Claude Opus 4.6 medium | Anthropic | 1 | 7.7 | $2.053 | 12/21 | 25.9s |
| #37 | Grok 4.3 medium | X AI | 2 | 7.7 | $0.614 | 13/21 | 47.5s |
| #35 | Kimi K2.6 medium | Moonshot AI | 2 | 7.8 | $0.889 | 12/21 | 71.7s |
| #34 | Gemini 3.1 Flash Lite medium | 1 | 7.8 | $0.071 | 13/21 | 3.23s |