AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: कुल लागत ↑.
121/121
मॉडल फ़िल्टर करें
मौजूदा खोज और फ़िल्टर से कोई मॉडल मेल नहीं खाता।
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | कुल लागत | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|---|
| #57 | Claude Opus 4.8 none | Anthropic | 1 | 7.2 | $0.539 | 12/21 | 3.47s |
| #160 | Grok Build 0.1 none | X AI | 2 | 4.2 | $0.547 | 7/19 | 28.7s |
| #22 | GPT-5.2 medium | OpenAI | 3 | 8.4 | $0.548 | 13/21 | 16.9s |
| #8 | Gemini 3.5 Flash medium | 1 | 9.1 | $0.582 | 18/21 | 4.94s | |
| #65 | Kimi K2.7 Code medium | Moonshot AI | 1 | 7.0 | $0.583 | 11/21 | 83.6s |
| #53 | Grok 4.20 medium | X AI | 2 | 7.3 | $0.609 | 12/21 | 27.7s |
| #37 | Grok 4.3 medium | X AI | 2 | 7.7 | $0.614 | 13/21 | 47.5s |
| #73 | Mimo V2 Omni medium | Xiaomi | 2 | 6.8 | $0.683 | 10/21 | 41.2s |
| #10 | GPT-5.3-Codex medium | OpenAI | 2 | 8.9 | $0.740 | 15/21 | 16.2s |
| #69 | Grok 4.20 Beta medium | X AI | 1 | 6.8 | $0.750 | 14/18 | 9.75s |
| #35 | Kimi K2.6 medium | Moonshot AI | 2 | 7.8 | $0.889 | 12/21 | 71.7s |
| #17 | GPT-5.4 medium | OpenAI | 2 | 8.5 | $1.210 | 14/21 | 22.3s |
| #83 | Gemini 3.1 Flash Lite high | 3 | 6.5 | $2.044 | 10/18 | 62.0s | |
| #38 | Claude Opus 4.6 medium | Anthropic | 1 | 7.7 | $2.053 | 12/21 | 25.9s |
| #95 | Gemini 3.1 Flash Lite Preview high | 1 | 6.1 | $2.310 | 13/16 | 68.1s |