AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: स्कोर ↓.
121/121
मॉडल फ़िल्टर करें
मौजूदा खोज और फ़िल्टर से कोई मॉडल मेल नहीं खाता।
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | कुल लागत | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|---|
| #32 | Gemini 3.1 Flash Lite Preview medium | 1 | 7.8 | $0.068 | 13/21 | 3.96s | |
| #34 | Gemini 3.1 Flash Lite medium | 1 | 7.8 | $0.071 | 13/21 | 3.23s | |
| #35 | Kimi K2.6 medium | Moonshot AI | 2 | 7.8 | $0.889 | 12/21 | 71.7s |
| #37 | Grok 4.3 medium | X AI | 2 | 7.7 | $0.614 | 13/21 | 47.5s |
| #38 | Claude Opus 4.6 medium | Anthropic | 1 | 7.7 | $2.053 | 12/21 | 25.9s |
| #40 | MiniMax M3 medium | Minimax | 2 | 7.6 | $0.131 | 11/21 | 68.2s |
| #41 | DeepSeek V4 Pro high | DeepSeek | 2 | 7.6 | $0.157 | 9/21 | 77.2s |
| #43 | Kimi K2.5 medium | Moonshot AI | 2 | 7.5 | $0.348 | 10/21 | 98.4s |
| #44 | Mercury 2 medium | Inception | 3 | 7.5 | $0.058 | 10/21 | 2.24s |
| #45 | GPT-5.3 Chat none | OpenAI | 2 | 7.5 | $0.433 | 12/21 | 6.34s |
| #46 | GPT-5.4 Nano medium | OpenAI | 2 | 7.5 | $0.107 | 11/21 | 12.0s |
| #47 | Qwen3.6 Flash medium | Qwen | 1 | 7.5 | $0.288 | 12/21 | 19.2s |
| #48 | DeepSeek V3.2 medium | DeepSeek | 1 | 7.5 | $0.044 | 11/21 | 68.7s |
| #50 | Seed-2.0-Mini medium | Bytedance Seed | 1 | 7.4 | $0.044 | 11/21 | 80.2s |
| #51 | MiMo-V2.5-Pro medium | Xiaomi | 2 | 7.4 | $0.106 | 12/21 | 26.1s |