AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: स्कोर ↑.
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #115 | LFM2-24B-A2B none | Liquid | 2 | 4.1 | 1/16 | 811ms |
| #114 | Qwen3.5-9B medium | Qwen | 2 | 4.4 | 3/18 | 73.6s |
| #113 | GPT-5.4 Nano none | OpenAI | 3 | 4.5 | 2/18 | 1.40s |
| #112 | Ling 2.6 1t none | Inclusionai | 3 | 4.5 | 3/18 | 8.79s |
| #111 | Grok 4.1 Fast none | X AI | 2 | 4.5 | 3/18 | 1.76s |
| #110 | MiMo-V2-Flash none | Xiaomi | 1 | 4.5 | 3/18 | 2.79s |
| #109 | GLM 4.7 Flash medium | Z.ai | 2 | 4.6 | 4/18 | 32.3s |
| #108 | HY3 Preview none | Tencent | 4 | 4.7 | 4/18 | 13.6s |
| #107 | Qwen3 Coder Next medium | Qwen | 5 | 4.7 | 3/18 | 10.8s |
| #106 | Mercury 2 none | Inception | 1 | 4.8 | 4/18 | 613ms |
| #105 | Qwen3.5-9B none | Qwen | 3 | 4.8 | 4/18 | 1.47s |
| #104 | GPT-4o-mini none | OpenAI | 1 | 4.9 | 4/18 | 2.00s |
| #103 | Nemotron 3 Super none | NVIDIA | 4 | 5.1 | 4/18 | 8.54s |
| #102 | MiMo-V2.5 none | Xiaomi | 2 | 5.1 | 5/18 | 1.05s |
| #101 | Qwen3 Coder Next none | Qwen | 1 | 5.1 | 4/18 | 10.2s |