AI BENCHY
Your ad here

AI BENCHY श्रेणी विफलताएँ

संयुक्त: अमान्य टूल कॉल

संयुक्त
अमान्य टूल कॉल

देखें कि संयुक्त में किन AI मॉडलों में अमान्य टूल कॉल आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: विफलता संख्या ↑.

दिखाए गए मॉडल

10

कुल विफलताएँ

10

सबसे अधिक प्रभावित मॉडल

GLM 5V Turbo 1
रैंक मॉडल कंपनी अमान्य टूल कॉल संख्या श्रेणी स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#31 GLM 5V Turbo medium Z.ai 1 6.9 0/1 15.1s
#64 DeepSeek V3.2 none DeepSeek 1 6.5 0/1 115.9s
#71 MiniMax M2.5 medium Minimax 1 4.5 0/1 60.4s
#74 GLM 4.7 Flash none Z.ai 1 3.0 0/1 3.22s
#75 GLM 5.1 none Z.ai 1 2.8 0/1 32.6s
#79 Grok 4.20 Beta none X AI 1 3.0 0/1 6.48s
#80 MiniMax M2.7 medium Minimax 1 4.7 0/1 41.0s
#82 Grok 4.20 none X AI 1 3.0 0/1 6.04s
#90 Qwen3.5-9B none Qwen 1 3.0 0/1 5.91s
#93 GLM 4.7 Flash medium Z.ai 1 2.8 0/1 65.6s

अमान्य टूल कॉल संख्या के अनुसार शीर्ष मॉडल

अमान्य टूल कॉल संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल