डोमेन-विशिष्ट मॉडेल क्रमवारी

डोमेन-विशिष्ट मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: मेट्रिक ↑.

दाखवलेली मॉडेल्स

सरासरी डोमेन-विशिष्ट स्कोअर

4.7

सर्वोत्तम मॉडेल

GLM 5 Turbo 2.9

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह421 अयशस्वी होण्याचे कारण वेळ संपला सह43 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह17 अयशस्वी होण्याचे कारण उत्तर नाही सह8 अयशस्वी होण्याचे कारण API त्रुटी सह7 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह1

216/216

क्रमांक	मॉडेल	कंपनी	डोमेन-विशिष्ट स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#50	DeepSeek V4 Pro high	DeepSeek	3.6	7.7	$0.200	0/3	151.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.200 प्रतिसाद वेळ (सरासरी) 151.5s
#87	GPT-5.6 Sol none	OpenAI	3.6	6.9	$0.524	0/3	1.43s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.524 प्रतिसाद वेळ (सरासरी) 1.43s
#95	Gemini 3.5 Flash-Lite low	Google	3.6	6.7	$0.145	0/3	3.63s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.145 प्रतिसाद वेळ (सरासरी) 3.63s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	3.6	6.7	$0.476	0/3	21.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.476 प्रतिसाद वेळ (सरासरी) 21.6s
#102	LongCat 2.0 high	Meituan	3.6	6.6	$0.469	0/3	400.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.469 प्रतिसाद वेळ (सरासरी) 400.3s
#122	Seed-2.0-Lite none	Bytedance Seed	3.6	6.2	$0.066	0/3	1.33s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.066 प्रतिसाद वेळ (सरासरी) 1.33s
#123	GPT-5.6 Luna low	OpenAI	3.6	6.2	$0.249	0/3	10.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.249 प्रतिसाद वेळ (सरासरी) 10.0s
#149	Gemini 3.1 Flash Lite high	Google	3.6	5.6	$2.044	0/3	139.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $2.044 प्रतिसाद वेळ (सरासरी) 139.9s
#162	Gemma 4 26B A4B none	Google	3.6	5.5	$0.015	0/3	2.49s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.015 प्रतिसाद वेळ (सरासरी) 2.49s
#183	Nemotron 3 Super none	NVIDIA	3.6	4.9	$0.008	0/3	6.23s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 6.23s
#198	Laguna M.1 none	Poolside	3.6	4.4	$0.009	0/3	5.50s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.009 प्रतिसाद वेळ (सरासरी) 5.50s
#205	Hy3 preview none	Tencent	3.6	4.0	$0.003	0/3	17.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.003 प्रतिसाद वेळ (सरासरी) 17.6s
#208	Grok Build 0.1 none	X AI	3.6	4.0	$0.547	0/3	103.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.547 प्रतिसाद वेळ (सरासरी) 103.7s
#210	Qwen3.5-9B medium	Qwen	3.6	3.8	$0.036	0/3	137.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.036 प्रतिसाद वेळ (सरासरी) 137.7s
#214	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3.6	3.2	$0.000	0/3	489ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 489ms

डोमेन-विशिष्ट क्रमवारी

मॉडेल फिल्टर करा

डोमेन-विशिष्ट स्कोअर नुसार शीर्ष मॉडेल्स

डोमेन-विशिष्ट स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स