AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: कुल लागत ↓.
121/121
मॉडल फ़िल्टर करें
मौजूदा खोज और फ़िल्टर से कोई मॉडल मेल नहीं खाता।
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | कुल लागत | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|---|
| #136 | Grok 4.20 Multi Agent Beta medium | X AI | 2 | 5.0 | $5.599 | 8/18 | 9.69s |
| #95 | Gemini 3.1 Flash Lite Preview high | 1 | 6.1 | $2.310 | 13/16 | 68.1s | |
| #38 | Claude Opus 4.6 medium | Anthropic | 1 | 7.7 | $2.053 | 12/21 | 25.9s |
| #83 | Gemini 3.1 Flash Lite high | 3 | 6.5 | $2.044 | 10/18 | 62.0s | |
| #17 | GPT-5.4 medium | OpenAI | 2 | 8.5 | $1.210 | 14/21 | 22.3s |
| #35 | Kimi K2.6 medium | Moonshot AI | 2 | 7.8 | $0.889 | 12/21 | 71.7s |
| #69 | Grok 4.20 Beta medium | X AI | 1 | 6.8 | $0.750 | 14/18 | 9.75s |
| #10 | GPT-5.3-Codex medium | OpenAI | 2 | 8.9 | $0.740 | 15/21 | 16.2s |
| #73 | Mimo V2 Omni medium | Xiaomi | 2 | 6.8 | $0.683 | 10/21 | 41.2s |
| #37 | Grok 4.3 medium | X AI | 2 | 7.7 | $0.614 | 13/21 | 47.5s |
| #53 | Grok 4.20 medium | X AI | 2 | 7.3 | $0.609 | 12/21 | 27.7s |
| #65 | Kimi K2.7 Code medium | Moonshot AI | 1 | 7.0 | $0.583 | 11/21 | 83.6s |
| #8 | Gemini 3.5 Flash medium | 1 | 9.1 | $0.582 | 18/21 | 4.94s | |
| #22 | GPT-5.2 medium | OpenAI | 3 | 8.4 | $0.548 | 13/21 | 16.9s |
| #160 | Grok Build 0.1 none | X AI | 2 | 4.2 | $0.547 | 7/19 | 28.7s |