संयुक्त मॉडेल क्रमवारी

संयुक्त मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↓.

दाखवलेली मॉडेल्स

सरासरी संयुक्त स्कोअर

5.5

सर्वोत्तम मॉडेल

Gemini 3 Flash Preview 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण अवैध टूल कॉल सह91 अयशस्वी होण्याचे कारण चुकीचे उत्तर सह68 अयशस्वी होण्याचे कारण उत्तर नाही सह29 अयशस्वी होण्याचे कारण API त्रुटी सह26 अयशस्वी होण्याचे कारण वेळ संपला सह5 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह1 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह1

210/210

क्रमांक	मॉडेल	कंपनी	संयुक्त स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#25	Gemini 2.5 Flash medium	Google	10.0	8.2	$0.643	2/2	84.5s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.643 प्रतिसाद वेळ (सरासरी) 84.5s
#31	GLM 5.2 high	Z.ai	10.0	8.0	$0.970	2/2	321.5s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.970 प्रतिसाद वेळ (सरासरी) 321.5s
#37	Qwen3.6 Plus medium	Qwen	10.0	7.8	$0.405	2/2	163.3s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.405 प्रतिसाद वेळ (सरासरी) 163.3s
#38	GLM 5.2 medium	Z.ai	5.0	7.8	$0.222	1/1	52.0s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.222 प्रतिसाद वेळ (सरासरी) 52.0s
#39	GPT-5.6 Terra medium	OpenAI	10.0	7.8	$0.676	2/2	11.1s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.676 प्रतिसाद वेळ (सरासरी) 11.1s
#40	Claude Sonnet 4.6 medium	Anthropic	10.0	7.8	$2.057	2/2	93.7s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $2.057 प्रतिसाद वेळ (सरासरी) 93.7s
#41	Claude Opus 4.8 low	Anthropic	9.9	7.8	$2.077	2/2	36.9s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $2.077 प्रतिसाद वेळ (सरासरी) 36.9s
#42	GLM 5 medium	Z.ai	5.0	7.7	$0.307	1/1	29.0s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.307 प्रतिसाद वेळ (सरासरी) 29.0s
#43	Claude Opus 4.6 medium	Anthropic	10.0	7.7	$3.059	2/2	114.1s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $3.059 प्रतिसाद वेळ (सरासरी) 114.1s
#44	GPT-5.6 Luna high	OpenAI	10.0	7.7	$1.017	2/2	19.0s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.017 प्रतिसाद वेळ (सरासरी) 19.0s
#46	DeepSeek V4 Pro high	DeepSeek	10.0	7.7	$0.200	2/2	79.0s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.200 प्रतिसाद वेळ (सरासरी) 79.0s
#47	MiniMax M3 medium	Minimax	10.0	7.6	$0.286	2/2	138.2s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.286 प्रतिसाद वेळ (सरासरी) 138.2s
#48	Grok Build 0.1 medium	X AI	10.0	7.6	$1.097	2/2	65.1s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.097 प्रतिसाद वेळ (सरासरी) 65.1s
#49	GLM 5 Turbo medium	Z.ai	5.0	7.6	$0.323	1/1	13.9s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.323 प्रतिसाद वेळ (सरासरी) 13.9s
#50	GPT-5.6 Luna medium	OpenAI	10.0	7.6	$0.352	2/2	14.6s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.352 प्रतिसाद वेळ (सरासरी) 14.6s

संयुक्त क्रमवारी

मॉडेल फिल्टर करा

संयुक्त स्कोअर नुसार शीर्ष मॉडेल्स

संयुक्त स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स