AI BENCHY श्रेणी विफलताएँ
निर्देश पालन: कोई उत्तर नहीं
निर्देश पालन
कोई उत्तर नहीं
देखें कि निर्देश पालन में किन AI मॉडलों में कोई उत्तर नहीं आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।
विफलता के कारण
| रैंक | मॉडल | कंपनी | कोई उत्तर नहीं संख्या | श्रेणी स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #53 | Gemini 3.1 Flash Lite high | 1 | 7.3 | 1/2 | 23.3s | |
| #161 | Qwen3.5-9B medium | Qwen | 1 | 6.5 | 1/2 | 5.75s |