AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: कुल लागत ↑.
121/121
मॉडल फ़िल्टर करें
मौजूदा खोज और फ़िल्टर से कोई मॉडल मेल नहीं खाता।
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | कुल लागत | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|---|
| #62 | MiMo-V2-Flash medium | Xiaomi | 1 | 7.1 | $0.043 | 12/21 | 20.1s |
| #50 | Seed-2.0-Mini medium | Bytedance Seed | 1 | 7.4 | $0.044 | 11/21 | 80.2s |
| #48 | DeepSeek V3.2 medium | DeepSeek | 1 | 7.5 | $0.044 | 11/21 | 68.7s |
| #109 | Mimo V2 PRO none | Xiaomi | 2 | 5.8 | $0.045 | 7/21 | 2.27s |
| #123 | GLM 5 Turbo none | Z.ai | 2 | 5.3 | $0.047 | 6/21 | 2.82s |
| #105 | GLM 5V Turbo none | Z.ai | 2 | 5.9 | $0.052 | 8/21 | 2.99s |
| #157 | GLM 4.7 Flash medium | Z.ai | 2 | 4.3 | $0.054 | 4/21 | 35.1s |
| #44 | Mercury 2 medium | Inception | 3 | 7.5 | $0.058 | 10/21 | 2.24s |
| #76 | MiMo-V2.5 medium | Xiaomi | 1 | 6.7 | $0.063 | 12/21 | 27.1s |
| #133 | Mistral Small 4 medium | Mistral | 2 | 5.1 | $0.068 | 5/21 | 9.40s |
| #32 | Gemini 3.1 Flash Lite Preview medium | 1 | 7.8 | $0.068 | 13/21 | 3.96s | |
| #115 | Grok 4.1 Fast medium | X AI | 4 | 5.6 | $0.069 | 9/19 | 23.8s |
| #80 | Step 3.5 Flash medium | Stepfun | 3 | 6.6 | $0.070 | 11/20 | 72.5s |
| #34 | Gemini 3.1 Flash Lite medium | 1 | 7.8 | $0.071 | 13/21 | 3.23s | |
| #61 | GLM 5.2 none | Z.ai | 1 | 7.1 | $0.076 | 12/21 | 6.34s |