AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: स्कोर ↓.
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #109 | GLM 4.7 Flash medium | Z.ai | 2 | 4.6 | 4/18 | 32.3s |
| #110 | MiMo-V2-Flash none | Xiaomi | 1 | 4.5 | 3/18 | 2.79s |
| #111 | Grok 4.1 Fast none | X AI | 2 | 4.5 | 3/18 | 1.76s |
| #112 | Ling 2.6 1t none | Inclusionai | 3 | 4.5 | 3/18 | 8.79s |
| #113 | GPT-5.4 Nano none | OpenAI | 3 | 4.5 | 2/18 | 1.40s |
| #114 | Qwen3.5-9B medium | Qwen | 2 | 4.4 | 3/18 | 73.6s |
| #115 | LFM2-24B-A2B none | Liquid | 2 | 4.1 | 1/16 | 811ms |