AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: कुल लागत ↓.
121/121
मॉडल फ़िल्टर करें
मौजूदा खोज और फ़िल्टर से कोई मॉडल मेल नहीं खाता।
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | कुल लागत | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|---|
| #111 | Kimi K2.6 none | Moonshot AI | 3 | 5.8 | $0.079 | 7/21 | 13.3s |
| #61 | GLM 5.2 none | Z.ai | 1 | 7.1 | $0.076 | 12/21 | 6.34s |
| #34 | Gemini 3.1 Flash Lite medium | 1 | 7.8 | $0.071 | 13/21 | 3.23s | |
| #80 | Step 3.5 Flash medium | Stepfun | 3 | 6.6 | $0.070 | 11/20 | 72.5s |
| #115 | Grok 4.1 Fast medium | X AI | 4 | 5.6 | $0.069 | 9/19 | 23.8s |
| #32 | Gemini 3.1 Flash Lite Preview medium | 1 | 7.8 | $0.068 | 13/21 | 3.96s | |
| #133 | Mistral Small 4 medium | Mistral | 2 | 5.1 | $0.068 | 5/21 | 9.40s |
| #76 | MiMo-V2.5 medium | Xiaomi | 1 | 6.7 | $0.063 | 12/21 | 27.1s |
| #44 | Mercury 2 medium | Inception | 3 | 7.5 | $0.058 | 10/21 | 2.24s |
| #157 | GLM 4.7 Flash medium | Z.ai | 2 | 4.3 | $0.054 | 4/21 | 35.1s |
| #105 | GLM 5V Turbo none | Z.ai | 2 | 5.9 | $0.052 | 8/21 | 2.99s |
| #123 | GLM 5 Turbo none | Z.ai | 2 | 5.3 | $0.047 | 6/21 | 2.82s |
| #109 | Mimo V2 PRO none | Xiaomi | 2 | 5.8 | $0.045 | 7/21 | 2.27s |
| #48 | DeepSeek V3.2 medium | DeepSeek | 1 | 7.5 | $0.044 | 11/21 | 68.7s |
| #50 | Seed-2.0-Mini medium | Bytedance Seed | 1 | 7.4 | $0.044 | 11/21 | 80.2s |