संयुक्त मॉडेल क्रमवारी

संयुक्त मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↑.

दाखवलेली मॉडेल्स

सरासरी संयुक्त स्कोअर

5.6

सर्वोत्तम मॉडेल

Gemini 3.5 Flash 3.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण अवैध टूल कॉल सह91 अयशस्वी होण्याचे कारण चुकीचे उत्तर सह69 अयशस्वी होण्याचे कारण उत्तर नाही सह32 अयशस्वी होण्याचे कारण API त्रुटी सह26 अयशस्वी होण्याचे कारण वेळ संपला सह5 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह1 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह1

216/216

क्रमांक	मॉडेल	कंपनी	संयुक्त स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#144	Kimi K2.6 none	Moonshot AI	3.0	5.8	$0.184	0/2	77.8s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.184 प्रतिसाद वेळ (सरासरी) 77.8s
#107	MiMo-V2.5 medium	Xiaomi	8.7	6.5	$0.082	1/2	78.0s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.082 प्रतिसाद वेळ (सरासरी) 78.0s
#159	Hy3 preview low	Tencent	5.0	5.5	$0.015	1/1	78.7s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.015 प्रतिसाद वेळ (सरासरी) 78.7s
#50	DeepSeek V4 Pro high	DeepSeek	10.0	7.7	$0.200	2/2	79.0s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.200 प्रतिसाद वेळ (सरासरी) 79.0s
#80	DeepSeek V3.2 medium	DeepSeek	7.3	7.0	$0.078	1/2	79.9s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.078 प्रतिसाद वेळ (सरासरी) 79.9s
#33	Step 3.7 Flash medium	Stepfun	7.3	8.0	$0.515	1/2	80.9s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.515 प्रतिसाद वेळ (सरासरी) 80.9s
#158	Qwen3.6 27B none	Qwen	3.2	5.5	$0.087	0/2	83.1s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.087 प्रतिसाद वेळ (सरासरी) 83.1s
#196	MiniMax M2.5 medium	Minimax	3.7	4.6	$0.340	0/2	83.2s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.340 प्रतिसाद वेळ (सरासरी) 83.2s
#4	Gemini 3.5 Flash high	Google	8.2	9.5	$1.976	1/2	84.1s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $1.976 प्रतिसाद वेळ (सरासरी) 84.1s
#28	Gemini 2.5 Flash medium	Google	10.0	8.2	$0.643	2/2	84.5s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.643 प्रतिसाद वेळ (सरासरी) 84.5s
#81	Kimi K2.5 medium	Moonshot AI	6.7	7.0	$0.600	1/2	89.2s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.600 प्रतिसाद वेळ (सरासरी) 89.2s
#74	Qwen3.5 Plus 2026-04-20 medium	Qwen	6.5	7.2	$0.317	1/2	92.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.317 प्रतिसाद वेळ (सरासरी) 92.4s
#44	Claude Sonnet 4.6 medium	Anthropic	10.0	7.8	$2.057	2/2	93.7s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $2.057 प्रतिसाद वेळ (सरासरी) 93.7s
#177	North Mini Code none	Cohere	3.2	5.1	$0.000	0/2	96.2s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 96.2s
#29	GPT-5 Mini medium	OpenAI	7.3	8.1	$0.237	1/2	99.8s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.237 प्रतिसाद वेळ (सरासरी) 99.8s

संयुक्त क्रमवारी

मॉडेल फिल्टर करा

संयुक्त स्कोअर नुसार शीर्ष मॉडेल्स

संयुक्त स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स