AI BENCHY श्रेणी विफलताएँ
निर्देश पालन: अतिरिक्त फॉर्मेटिंग
निर्देश पालन
अतिरिक्त फॉर्मेटिंग
देखें कि निर्देश पालन में किन AI मॉडलों में अतिरिक्त फॉर्मेटिंग आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: सही परीक्षण ↓.
विफलता के कारण
| रैंक | मॉडल | कंपनी | अतिरिक्त फॉर्मेटिंग संख्या | श्रेणी स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #92 | DeepSeek V4 Flash none | DeepSeek | 1 | 6.5 | 1/2 | 17.5s |
| #108 | HY3 Preview none | Tencent | 1 | 6.3 | 1/2 | 13.0s |