डोमेन-विशिष्ट मॉडेल क्रमवारी

डोमेन-विशिष्ट मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↑.

दाखवलेली मॉडेल्स

सरासरी डोमेन-विशिष्ट स्कोअर

4.7

सर्वोत्तम मॉडेल

Claude Sonnet 4.6 2.9

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह421 अयशस्वी होण्याचे कारण वेळ संपला सह43 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह17 अयशस्वी होण्याचे कारण उत्तर नाही सह8 अयशस्वी होण्याचे कारण API त्रुटी सह7 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह1

216/216

क्रमांक	मॉडेल	कंपनी	डोमेन-विशिष्ट स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#151	GLM 5V Turbo none	Z.ai	5.3	5.6	$0.052	1/3	2.09s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.052 प्रतिसाद वेळ (सरासरी) 2.09s
#163	Mimo V2 Omni none	Xiaomi	5.3	5.5	$0.021	1/3	2.10s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.021 प्रतिसाद वेळ (सरासरी) 2.10s
#147	GLM 5 none	Z.ai	3.0	5.7	$0.041	0/3	2.24s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.041 प्रतिसाद वेळ (सरासरी) 2.24s
#202	Hunter Alpha none	OpenRouter	5.3	4.2	$0.000	1/3	2.33s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 2.33s
#110	Gemini 3.1 Flash Lite Preview low	Google	5.3	6.5	$0.646	1/3	2.36s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.646 प्रतिसाद वेळ (सरासरी) 2.36s
#162	Gemma 4 26B A4B none	Google	3.6	5.5	$0.015	0/3	2.49s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.015 प्रतिसाद वेळ (सरासरी) 2.49s
#154	Owl Alpha none	Openrouter	5.3	5.6	$0.000	1/3	3.00s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 3.00s
#158	Qwen3.6 27B none	Qwen	7.7	5.5	$0.087	2/3	3.03s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.087 प्रतिसाद वेळ (सरासरी) 3.03s
#69	Gemini 3.1 Flash Lite medium	Google	2.9	7.3	$0.117	0/3	3.16s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.117 प्रतिसाद वेळ (सरासरी) 3.16s
#121	Gemma 4 31B none	Google	7.7	6.2	$0.021	2/3	3.22s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.021 प्रतिसाद वेळ (सरासरी) 3.22s
#118	Claude Sonnet 5 none	Anthropic	5.3	6.3	$0.548	1/3	3.28s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.548 प्रतिसाद वेळ (सरासरी) 3.28s
#14	Gemini 3.5 Flash low	Google	7.7	8.9	$0.433	2/3	3.39s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.433 प्रतिसाद वेळ (सरासरी) 3.39s
#67	Claude Sonnet 4.6 none	Anthropic	7.7	7.3	$0.661	2/3	3.54s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.661 प्रतिसाद वेळ (सरासरी) 3.54s
#95	Gemini 3.5 Flash-Lite low	Google	3.6	6.7	$0.145	0/3	3.63s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.145 प्रतिसाद वेळ (सरासरी) 3.63s
#86	DeepSeek V4 Pro none	DeepSeek	5.3	6.9	$0.096	1/3	3.72s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.096 प्रतिसाद वेळ (सरासरी) 3.72s

डोमेन-विशिष्ट क्रमवारी

मॉडेल फिल्टर करा

डोमेन-विशिष्ट स्कोअर नुसार शीर्ष मॉडेल्स

डोमेन-विशिष्ट स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स