डोमेन-विशिष्ट मॉडेल क्रमवारी

डोमेन-विशिष्ट मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: मेट्रिक ↑.

दाखवलेली मॉडेल्स

सरासरी डोमेन-विशिष्ट स्कोअर

4.7

सर्वोत्तम मॉडेल

GLM 5 Turbo 2.9

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह421 अयशस्वी होण्याचे कारण वेळ संपला सह43 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह17 अयशस्वी होण्याचे कारण उत्तर नाही सह8 अयशस्वी होण्याचे कारण API त्रुटी सह7 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह1

216/216

क्रमांक	मॉडेल	कंपनी	डोमेन-विशिष्ट स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#215	Step 3.5 Flash none	Stepfun	3.3	2.3	$0.020	1/1	34.5s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.020 प्रतिसाद वेळ (सरासरी) 34.5s
#19	Muse Spark 1.1 medium	Meta	3.5	8.6	$1.357	0/3	71.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $1.357 प्रतिसाद वेळ (सरासरी) 71.4s
#30	Muse Spark 1.1 high	Meta	3.5	8.1	$1.694	0/3	67.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $1.694 प्रतिसाद वेळ (सरासरी) 67.4s
#46	GLM 5 medium	Z.ai	3.5	7.7	$0.307	0/3	0ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.307 प्रतिसाद वेळ (सरासरी) 0ms
#55	Nemotron 3 Ultra medium	NVIDIA	3.5	7.5	$0.774	0/3	24.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.774 प्रतिसाद वेळ (सरासरी) 24.9s
#58	GPT-5.3 Chat none	OpenAI	3.5	7.5	$0.571	0/3	13.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.571 प्रतिसाद वेळ (सरासरी) 13.0s
#81	Kimi K2.5 medium	Moonshot AI	3.5	7.0	$0.600	0/3	137.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.600 प्रतिसाद वेळ (सरासरी) 137.3s
#89	Qwen3.6 Flash medium	Qwen	3.5	6.9	$0.738	0/3	14.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.738 प्रतिसाद वेळ (सरासरी) 14.6s
#114	Ring-2.6-1T medium	Inclusionai	3.5	6.3	$0.103	0/3	64.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.103 प्रतिसाद वेळ (सरासरी) 64.9s
#142	GPT-5.4 Mini none	OpenAI	3.5	5.9	$0.095	0/3	937ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.095 प्रतिसाद वेळ (सरासरी) 937ms
#167	Qwen3.6 35B A3B none	Qwen	3.5	5.3	$0.061	0/3	7.45s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.061 प्रतिसाद वेळ (सरासरी) 7.45s
#200	GLM 4.7 Flash medium	Z.ai	3.5	4.3	$0.166	0/3	174.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.166 प्रतिसाद वेळ (सरासरी) 174.6s
#15	Grok 4.5 high	X AI	3.6	8.9	$1.707	0/3	332.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $1.707 प्रतिसाद वेळ (सरासरी) 332.1s
#29	GPT-5 Mini medium	OpenAI	3.6	8.1	$0.237	0/3	44.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.237 प्रतिसाद वेळ (सरासरी) 44.6s
#40	Qwen3.7 Plus medium	Qwen	3.6	7.9	$0.267	0/3	45.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.267 प्रतिसाद वेळ (सरासरी) 45.3s

डोमेन-विशिष्ट क्रमवारी

मॉडेल फिल्टर करा

डोमेन-विशिष्ट स्कोअर नुसार शीर्ष मॉडेल्स

डोमेन-विशिष्ट स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स