डोमेन-विशिष्ट मॉडेल क्रमवारी

डोमेन-विशिष्ट मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↓.

दाखवलेली मॉडेल्स

सरासरी डोमेन-विशिष्ट स्कोअर

4.7

सर्वोत्तम मॉडेल

Kimi K3 5.9

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह421 अयशस्वी होण्याचे कारण वेळ संपला सह43 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह17 अयशस्वी होण्याचे कारण उत्तर नाही सह8 अयशस्वी होण्याचे कारण API त्रुटी सह7 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह1

216/216

क्रमांक	मॉडेल	कंपनी	डोमेन-विशिष्ट स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#30	Muse Spark 1.1 high	Meta	3.5	8.1	$1.694	0/3	67.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $1.694 प्रतिसाद वेळ (सरासरी) 67.4s
#108	Laguna XS 2.1 medium	Poolside	2.9	6.5	$0.068	0/3	65.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.068 प्रतिसाद वेळ (सरासरी) 65.7s
#60	GPT-5.4 Mini medium	OpenAI	4.1	7.5	$0.756	0/3	65.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.756 प्रतिसाद वेळ (सरासरी) 65.3s
#114	Ring-2.6-1T medium	Inclusionai	3.5	6.3	$0.103	0/3	64.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.103 प्रतिसाद वेळ (सरासरी) 64.9s
#16	GPT-5.3-Codex medium	OpenAI	5.9	8.9	$0.920	1/3	64.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.920 प्रतिसाद वेळ (सरासरी) 64.3s
#76	Qwen3.5-122B-A10B medium	Qwen	2.9	7.1	$1.046	0/3	63.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $1.046 प्रतिसाद वेळ (सरासरी) 63.4s
#213	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	2.9	3.4	$0.000	0/3	56.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 56.7s
#20	Claude Fable 5 medium	Anthropic	5.3	8.6	$3.478	1/3	53.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $3.478 प्रतिसाद वेळ (सरासरी) 53.4s
#74	Qwen3.5 Plus 2026-04-20 medium	Qwen	2.9	7.2	$0.317	0/3	53.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.317 प्रतिसाद वेळ (सरासरी) 53.1s
#127	gpt-oss-120b medium	OpenAI	2.9	6.1	$0.019	0/3	50.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.019 प्रतिसाद वेळ (सरासरी) 50.9s
#33	Step 3.7 Flash medium	Stepfun	7.7	8.0	$0.515	2/3	48.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.515 प्रतिसाद वेळ (सरासरी) 48.3s
#140	Mimo V2 Omni medium	Xiaomi	3.0	5.9	$0.683	0/3	47.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.683 प्रतिसाद वेळ (सरासरी) 47.9s
#7	GPT-5.6 Sol medium	OpenAI	5.9	9.4	$1.316	1/3	47.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $1.316 प्रतिसाद वेळ (सरासरी) 47.9s
#45	Claude Opus 4.8 low	Anthropic	5.3	7.8	$2.077	1/3	45.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $2.077 प्रतिसाद वेळ (सरासरी) 45.5s
#42	GLM 5.2 medium	Z.ai	4.1	7.8	$0.187	0/3	45.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.187 प्रतिसाद वेळ (सरासरी) 45.5s

डोमेन-विशिष्ट क्रमवारी

मॉडेल फिल्टर करा

डोमेन-विशिष्ट स्कोअर नुसार शीर्ष मॉडेल्स

डोमेन-विशिष्ट स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स