AI BENCHY श्रेणी विफलताएँ
टूल कॉलिंग: निर्देशों का पालन नहीं किया
टूल कॉलिंग
निर्देशों का पालन नहीं किया
देखें कि टूल कॉलिंग में किन AI मॉडलों में निर्देशों का पालन नहीं किया आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: विफलता संख्या ↑.
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | श्रेणी स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #25 | Grok 4.20 Beta medium | X AI | 1 | 3.0 | 0/1 | 12.4s |
| #44 | GPT-5.4 Mini medium | OpenAI | 1 | 4.7 | 0/1 | 9.62s |
| #47 | Grok 4.20 medium | X AI | 1 | 3.0 | 0/1 | 13.7s |
| #80 | MiniMax M2.7 medium | Minimax | 1 | 4.7 | 0/1 | 12.0s |
| #86 | GPT-5.4 Mini none | OpenAI | 1 | 3.0 | 0/1 | 2.32s |
| #88 | Nemotron 3 Super none | NVIDIA | 1 | 4.7 | 0/1 | 16.0s |