AI BENCHY श्रेणी विफलताएँ
टूल कॉलिंग: निर्देशों का पालन नहीं किया
टूल कॉलिंग
निर्देशों का पालन नहीं किया
देखें कि टूल कॉलिंग में किन AI मॉडलों में निर्देशों का पालन नहीं किया आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | श्रेणी स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #13 | Grok 4.20 Beta medium | X AI | 1 | 3.0 | 0/1 | 12.4s |
| #45 | GPT-5.4 Mini medium | OpenAI | 1 | 4.7 | 0/1 | 9.62s |
| #65 | Grok 4.20 medium | X AI | 1 | 3.0 | 0/1 | 13.7s |
| #130 | MiniMax M2.7 medium | Minimax | 1 | 4.7 | 0/1 | 12.0s |
| #141 | Nemotron 3 Super none | NVIDIA | 1 | 4.7 | 0/1 | 16.0s |
| #144 | GPT-5.4 Mini none | OpenAI | 1 | 3.0 | 0/1 | 2.32s |