संयुक्त मॉडेल क्रमवारी

संयुक्त मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा.

दाखवलेली मॉडेल्स

सरासरी संयुक्त स्कोअर

5.6

सर्वोत्तम मॉडेल

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण अवैध टूल कॉल सह91 अयशस्वी होण्याचे कारण चुकीचे उत्तर सह69 अयशस्वी होण्याचे कारण उत्तर नाही सह32 अयशस्वी होण्याचे कारण API त्रुटी सह26 अयशस्वी होण्याचे कारण वेळ संपला सह5 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह1 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह1

216/216

क्रमांक	मॉडेल	कंपनी	संयुक्त स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#27	Muse Spark 1.1 low	Meta	6.6	8.3	$0.647	1/2	29.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.647 प्रतिसाद वेळ (सरासरी) 29.4s
#20	Claude Fable 5 medium	Anthropic	6.5	8.6	$3.478	1/2	27.5s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $3.478 प्रतिसाद वेळ (सरासरी) 27.5s
#23	Grok 4.5 low	X AI	6.5	8.4	$0.935	1/2	12.8s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.935 प्रतिसाद वेळ (सरासरी) 12.8s
#37	Kimi K3 max	Moonshot AI	6.5	8.0	$3.112	1/2	223.0s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $3.112 प्रतिसाद वेळ (सरासरी) 223.0s
#63	Qwen3.7 Max none	Qwen	6.5	7.4	$0.197	1/2	37.2s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.197 प्रतिसाद वेळ (सरासरी) 37.2s
#74	Qwen3.5 Plus 2026-04-20 medium	Qwen	6.5	7.2	$0.317	1/2	92.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.317 प्रतिसाद वेळ (सरासरी) 92.4s
#77	Grok 4.3 medium	X AI	6.5	7.1	$0.779	1/2	55.1s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.779 प्रतिसाद वेळ (सरासरी) 55.1s
#87	GPT-5.6 Sol none	OpenAI	6.5	6.9	$0.524	1/2	8.37s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.524 प्रतिसाद वेळ (सरासरी) 8.37s
#89	Qwen3.6 Flash medium	Qwen	6.5	6.9	$0.738	1/2	299.2s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.738 प्रतिसाद वेळ (सरासरी) 299.2s
#91	GPT-5.5 none	OpenAI	6.5	6.9	$0.544	1/2	8.90s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.544 प्रतिसाद वेळ (सरासरी) 8.90s
#103	Qwen3.6 Max Preview none	Qwen	6.5	6.6	$0.231	1/2	61.6s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.231 प्रतिसाद वेळ (सरासरी) 61.6s
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	6.5	6.4	$0.073	1/2	64.8s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.073 प्रतिसाद वेळ (सरासरी) 64.8s
#117	LongCat 2.0 none	Meituan	6.5	6.3	$0.044	1/2	28.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.044 प्रतिसाद वेळ (सरासरी) 28.4s
#118	Claude Sonnet 5 none	Anthropic	6.5	6.3	$0.548	1/2	31.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.548 प्रतिसाद वेळ (सरासरी) 31.4s
#127	gpt-oss-120b medium	OpenAI	6.5	6.1	$0.019	1/2	24.0s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.019 प्रतिसाद वेळ (सरासरी) 24.0s

संयुक्त क्रमवारी

मॉडेल फिल्टर करा

संयुक्त स्कोअर नुसार शीर्ष मॉडेल्स

संयुक्त स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स