संयुक्त मॉडेल क्रमवारी

संयुक्त मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↑.

दाखवलेली मॉडेल्स

सरासरी संयुक्त स्कोअर

5.6

सर्वोत्तम मॉडेल

Muse Spark 1.1 5.9

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण अवैध टूल कॉल सह91 अयशस्वी होण्याचे कारण चुकीचे उत्तर सह69 अयशस्वी होण्याचे कारण उत्तर नाही सह32 अयशस्वी होण्याचे कारण API त्रुटी सह26 अयशस्वी होण्याचे कारण वेळ संपला सह5 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह1 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह1

216/216

क्रमांक	मॉडेल	कंपनी	संयुक्त स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#214	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1.5	3.2	$0.000	0/1	0ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 0ms
#215	Step 3.5 Flash none	Stepfun	1.5	2.3	$0.020	0/1	0ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.020 प्रतिसाद वेळ (सरासरी) 0ms
#216	LFM2-24B-A2B none	Liquid	1.5	2.2	$0.001	0/1	0ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.001 प्रतिसाद वेळ (सरासरी) 0ms
#4	Gemini 3.5 Flash high	Google	8.2	9.5	$1.976	1/2	84.1s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $1.976 प्रतिसाद वेळ (सरासरी) 84.1s
#11	Qwen3.7 Max medium	Qwen	8.7	9.2	$1.116	1/2	287.8s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $1.116 प्रतिसाद वेळ (सरासरी) 287.8s
#14	Gemini 3.5 Flash low	Google	8.2	8.9	$0.433	1/2	30.0s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.433 प्रतिसाद वेळ (सरासरी) 30.0s
#19	Muse Spark 1.1 medium	Meta	8.3	8.6	$1.357	1/2	42.6s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $1.357 प्रतिसाद वेळ (सरासरी) 42.6s
#20	Claude Fable 5 medium	Anthropic	6.5	8.6	$3.478	1/2	27.5s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $3.478 प्रतिसाद वेळ (सरासरी) 27.5s
#22	Qwen3.6 Max Preview medium	Qwen	7.3	8.4	$1.143	1/2	177.5s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $1.143 प्रतिसाद वेळ (सरासरी) 177.5s
#23	Grok 4.5 low	X AI	6.5	8.4	$0.935	1/2	12.8s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.935 प्रतिसाद वेळ (सरासरी) 12.8s
#26	Claude Sonnet 5 medium	Anthropic	7.3	8.3	$0.922	1/2	51.9s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.922 प्रतिसाद वेळ (सरासरी) 51.9s
#27	Muse Spark 1.1 low	Meta	6.6	8.3	$0.647	1/2	29.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.647 प्रतिसाद वेळ (सरासरी) 29.4s
#29	GPT-5 Mini medium	OpenAI	7.3	8.1	$0.237	1/2	99.8s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.237 प्रतिसाद वेळ (सरासरी) 99.8s
#31	Gemini 3.5 Flash-Lite high	Google	7.3	8.1	$0.584	1/2	29.2s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.584 प्रतिसाद वेळ (सरासरी) 29.2s
#32	Inkling high	Thinkingmachines	7.3	8.0	$1.006	1/2	63.8s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $1.006 प्रतिसाद वेळ (सरासरी) 63.8s

संयुक्त क्रमवारी

मॉडेल फिल्टर करा

संयुक्त स्कोअर नुसार शीर्ष मॉडेल्स

संयुक्त स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स