डोमेन-विशिष्ट मॉडेल क्रमवारी

डोमेन-विशिष्ट मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: मेट्रिक ↑.

दाखवलेली मॉडेल्स

सरासरी डोमेन-विशिष्ट स्कोअर

4.7

सर्वोत्तम मॉडेल

GLM 5 Turbo 2.9

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह412 अयशस्वी होण्याचे कारण वेळ संपला सह43 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह17 अयशस्वी होण्याचे कारण उत्तर नाही सह8 अयशस्वी होण्याचे कारण API त्रुटी सह7 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह1

210/210

क्रमांक	मॉडेल	कंपनी	डोमेन-विशिष्ट स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#49	GLM 5 Turbo medium	Z.ai	2.9	7.6	$0.323	0/3	71.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.323 प्रतिसाद वेळ (सरासरी) 71.1s
#69	KAT-Coder-Pro V2.5 high	Kwaipilot	2.9	7.2	$0.482	0/3	35.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.482 प्रतिसाद वेळ (सरासरी) 35.3s
#76	DeepSeek V3.2 medium	DeepSeek	2.9	7.0	$0.078	0/3	24.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.078 प्रतिसाद वेळ (सरासरी) 24.3s
#95	Gemma 4 26B A4B medium	Google	2.9	6.6	$0.089	0/3	23.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.089 प्रतिसाद वेळ (सरासरी) 23.6s
#121	gpt-oss-120b medium	OpenAI	2.9	6.1	$0.019	0/3	50.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.019 प्रतिसाद वेळ (सरासरी) 50.9s
#140	Nemotron 3 Super medium	NVIDIA	2.9	5.7	$0.050	0/3	16.2s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.050 प्रतिसाद वेळ (सरासरी) 16.2s
#180	GPT-5.4 Nano none	OpenAI	2.9	4.8	$0.041	0/3	926ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.041 प्रतिसाद वेळ (सरासरी) 926ms
#188	Cobuddy medium	Baidu	2.9	4.7	$0.000	0/3	128.2s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 128.2s
#190	MiniMax M2.5 medium	Minimax	2.9	4.6	$0.340	0/3	237.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.340 प्रतिसाद वेळ (सरासरी) 237.3s
#19	Qwen3.6 Max Preview medium	Qwen	2.9	8.4	$1.143	0/3	95.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $1.143 प्रतिसाद वेळ (सरासरी) 95.9s
#22	Grok 4.5 medium	X AI	2.9	8.3	$1.928	0/3	198.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $1.928 प्रतिसाद वेळ (सरासरी) 198.9s
#24	Muse Spark 1.1 low	Meta	2.9	8.3	$0.647	0/3	29.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.647 प्रतिसाद वेळ (सरासरी) 29.7s
#37	Qwen3.6 Plus medium	Qwen	2.9	7.8	$0.405	0/3	29.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.405 प्रतिसाद वेळ (सरासरी) 29.6s
#40	Claude Sonnet 4.6 medium	Anthropic	2.9	7.8	$2.057	0/3	0ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $2.057 प्रतिसाद वेळ (सरासरी) 0ms
#60	LongCat 2.0 medium	Meituan	2.9	7.4	$0.478	0/3	339.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.478 प्रतिसाद वेळ (सरासरी) 339.9s

1 2 14

→

डोमेन-विशिष्ट क्रमवारी

मॉडेल फिल्टर करा

डोमेन-विशिष्ट स्कोअर नुसार शीर्ष मॉडेल्स

डोमेन-विशिष्ट स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स