डोमेन-विशिष्ट मॉडेल क्रमवारी

डोमेन-विशिष्ट मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा.

दाखवलेली मॉडेल्स

सरासरी डोमेन-विशिष्ट स्कोअर

4.7

सर्वोत्तम मॉडेल

Gemini 3.6 Flash 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह421 अयशस्वी होण्याचे कारण वेळ संपला सह43 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह17 अयशस्वी होण्याचे कारण उत्तर नाही सह8 अयशस्वी होण्याचे कारण API त्रुटी सह7 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह1

216/216

क्रमांक	मॉडेल	कंपनी	डोमेन-विशिष्ट स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#123	GPT-5.6 Luna low	OpenAI	3.6	6.2	$0.249	0/3	10.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.249 प्रतिसाद वेळ (सरासरी) 10.0s
#149	Gemini 3.1 Flash Lite high	Google	3.6	5.6	$2.044	0/3	139.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $2.044 प्रतिसाद वेळ (सरासरी) 139.9s
#162	Gemma 4 26B A4B none	Google	3.6	5.5	$0.015	0/3	2.49s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.015 प्रतिसाद वेळ (सरासरी) 2.49s
#183	Nemotron 3 Super none	NVIDIA	3.6	4.9	$0.008	0/3	6.23s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 6.23s
#198	Laguna M.1 none	Poolside	3.6	4.4	$0.009	0/3	5.50s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.009 प्रतिसाद वेळ (सरासरी) 5.50s
#205	Hy3 preview none	Tencent	3.6	4.0	$0.003	0/3	17.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.003 प्रतिसाद वेळ (सरासरी) 17.6s
#208	Grok Build 0.1 none	X AI	3.6	4.0	$0.547	0/3	103.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.547 प्रतिसाद वेळ (सरासरी) 103.7s
#210	Qwen3.5-9B medium	Qwen	3.6	3.8	$0.036	0/3	137.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.036 प्रतिसाद वेळ (सरासरी) 137.7s
#214	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3.6	3.2	$0.000	0/3	489ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 489ms
#19	Muse Spark 1.1 medium	Meta	3.5	8.6	$1.357	0/3	71.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $1.357 प्रतिसाद वेळ (सरासरी) 71.4s
#30	Muse Spark 1.1 high	Meta	3.5	8.1	$1.694	0/3	67.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $1.694 प्रतिसाद वेळ (सरासरी) 67.4s
#46	GLM 5 medium	Z.ai	3.5	7.7	$0.307	0/3	0ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.307 प्रतिसाद वेळ (सरासरी) 0ms
#55	Nemotron 3 Ultra medium	NVIDIA	3.5	7.5	$0.774	0/3	24.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.774 प्रतिसाद वेळ (सरासरी) 24.9s
#58	GPT-5.3 Chat none	OpenAI	3.5	7.5	$0.571	0/3	13.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.571 प्रतिसाद वेळ (सरासरी) 13.0s
#81	Kimi K2.5 medium	Moonshot AI	3.5	7.0	$0.600	0/3	137.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.600 प्रतिसाद वेळ (सरासरी) 137.3s

←

1 9 10 11 15

→

डोमेन-विशिष्ट क्रमवारी

मॉडेल फिल्टर करा

डोमेन-विशिष्ट स्कोअर नुसार शीर्ष मॉडेल्स

डोमेन-विशिष्ट स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स