संयुक्त मॉडेल क्रमवारी

संयुक्त मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↑.

दाखवलेली मॉडेल्स

सरासरी संयुक्त स्कोअर

5.6

सर्वोत्तम मॉडेल

Gemini 3.5 Flash 3.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण अवैध टूल कॉल सह91 अयशस्वी होण्याचे कारण चुकीचे उत्तर सह69 अयशस्वी होण्याचे कारण उत्तर नाही सह32 अयशस्वी होण्याचे कारण API त्रुटी सह26 अयशस्वी होण्याचे कारण वेळ संपला सह5 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह1 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह1

216/216

क्रमांक	मॉडेल	कंपनी	संयुक्त स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#31	Gemini 3.5 Flash-Lite high	Google	7.3	8.1	$0.584	1/2	29.2s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.584 प्रतिसाद वेळ (सरासरी) 29.2s
#27	Muse Spark 1.1 low	Meta	6.6	8.3	$0.647	1/2	29.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.647 प्रतिसाद वेळ (सरासरी) 29.4s
#21	GPT-5.4 medium	OpenAI	10.0	8.5	$1.533	2/2	29.8s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.533 प्रतिसाद वेळ (सरासरी) 29.8s
#121	Gemma 4 31B none	Google	3.8	6.2	$0.021	0/2	30.0s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.021 प्रतिसाद वेळ (सरासरी) 30.0s
#14	Gemini 3.5 Flash low	Google	8.2	8.9	$0.433	1/2	30.0s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.433 प्रतिसाद वेळ (सरासरी) 30.0s
#190	Hunter Alpha medium	OpenRouter	2.3	4.7	$0.000	0/1	30.5s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 30.5s
#172	Qwen3 Coder Next none	Qwen	3.0	5.1	$0.025	0/2	30.9s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.025 प्रतिसाद वेळ (सरासरी) 30.9s
#118	Claude Sonnet 5 none	Anthropic	6.5	6.3	$0.548	1/2	31.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.548 प्रतिसाद वेळ (सरासरी) 31.4s
#57	GPT-5.4 Nano medium	OpenAI	9.9	7.5	$0.138	2/2	32.2s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.138 प्रतिसाद वेळ (सरासरी) 32.2s
#173	Mistral Small 4 medium	Mistral	3.0	5.1	$0.096	0/2	32.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.096 प्रतिसाद वेळ (सरासरी) 32.4s
#13	GPT-5.5 medium	OpenAI	10.0	9.0	$4.137	2/2	33.5s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $4.137 प्रतिसाद वेळ (सरासरी) 33.5s
#181	Qwen3.6 Plus Preview medium	Qwen	5.0	4.9	$0.000	1/1	35.0s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 35.0s
#15	Grok 4.5 high	X AI	10.0	8.9	$1.707	2/2	35.6s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.707 प्रतिसाद वेळ (सरासरी) 35.6s
#184	Ling-2.6-flash none	Inclusionai	3.0	4.9	$0.002	0/2	35.7s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.002 प्रतिसाद वेळ (सरासरी) 35.7s
#205	Hy3 preview none	Tencent	1.5	4.0	$0.003	0/1	35.8s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.003 प्रतिसाद वेळ (सरासरी) 35.8s

संयुक्त क्रमवारी

मॉडेल फिल्टर करा

संयुक्त स्कोअर नुसार शीर्ष मॉडेल्स

संयुक्त स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स