AI BENCHY श्रेणी विफलताएँ
टूल कॉलिंग: निर्देशों का पालन नहीं किया
टूल कॉलिंग
निर्देशों का पालन नहीं किया
देखें कि टूल कॉलिंग में किन AI मॉडलों में निर्देशों का पालन नहीं किया आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | श्रेणी स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #86 | GPT-5.4 Mini none | OpenAI | 1 | 3.0 | 0/1 | 2.32s |
| #44 | GPT-5.4 Mini medium | OpenAI | 1 | 4.7 | 0/1 | 9.62s |
| #80 | MiniMax M2.7 medium | Minimax | 1 | 4.7 | 0/1 | 12.0s |
| #25 | Grok 4.20 Beta medium | X AI | 1 | 3.0 | 0/1 | 12.4s |
| #47 | Grok 4.20 medium | X AI | 1 | 3.0 | 0/1 | 13.7s |
| #88 | Nemotron 3 Super none | NVIDIA | 1 | 4.7 | 0/1 | 16.0s |