डोमेन-विशिष्ट मॉडेल क्रमवारी

डोमेन-विशिष्ट मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↓.

दाखवलेली मॉडेल्स

सरासरी डोमेन-विशिष्ट स्कोअर

4.7

सर्वोत्तम मॉडेल

Kimi K3 5.9

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह421 अयशस्वी होण्याचे कारण वेळ संपला सह43 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह17 अयशस्वी होण्याचे कारण उत्तर नाही सह8 अयशस्वी होण्याचे कारण API त्रुटी सह7 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह1

216/216

क्रमांक	मॉडेल	कंपनी	डोमेन-विशिष्ट स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#39	Seed-2.0-Lite medium	Bytedance Seed	5.9	7.9	$0.234	1/3	88.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.234 प्रतिसाद वेळ (सरासरी) 88.7s
#125	Qwen3.5-35B-A3B medium	Qwen	4.1	6.2	$0.837	0/3	88.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.837 प्रतिसाद वेळ (सरासरी) 88.3s
#96	LongCat 2.0 low	Meituan	3.0	6.7	$0.391	0/3	86.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.391 प्रतिसाद वेळ (सरासरी) 86.1s
#47	Claude Opus 4.6 medium	Anthropic	3.0	7.7	$3.059	0/3	83.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $3.059 प्रतिसाद वेळ (सरासरी) 83.4s
#62	Qwen3.5-27B medium	Qwen	5.3	7.4	$1.627	1/3	79.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $1.627 प्रतिसाद वेळ (सरासरी) 79.5s
#48	GPT-5.6 Luna high	OpenAI	7.7	7.7	$1.017	2/3	79.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $1.017 प्रतिसाद वेळ (सरासरी) 79.0s
#24	GPT-5.2 medium	OpenAI	5.9	8.4	$0.951	1/3	77.8s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.951 प्रतिसाद वेळ (सरासरी) 77.8s
#21	GPT-5.4 medium	OpenAI	5.3	8.5	$1.533	1/3	74.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $1.533 प्रतिसाद वेळ (सरासरी) 74.3s
#35	GLM 5.2 high	Z.ai	3.7	8.0	$0.817	0/3	74.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.817 प्रतिसाद वेळ (सरासरी) 74.0s
#185	Ring-2.6-1T none	Inclusionai	5.3	4.8	$0.026	1/3	73.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.026 प्रतिसाद वेळ (सरासरी) 73.4s
#105	Qwen3.6 27B medium	Qwen	2.9	6.5	$0.779	0/3	73.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.779 प्रतिसाद वेळ (सरासरी) 73.4s
#23	Grok 4.5 low	X AI	3.0	8.4	$0.935	0/3	72.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.935 प्रतिसाद वेळ (सरासरी) 72.6s
#19	Muse Spark 1.1 medium	Meta	3.5	8.6	$1.357	0/3	71.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $1.357 प्रतिसाद वेळ (सरासरी) 71.4s
#143	North Mini Code medium	Cohere	5.3	5.9	$0.000	1/3	71.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 71.4s
#53	GLM 5 Turbo medium	Z.ai	2.9	7.6	$0.323	0/3	71.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.323 प्रतिसाद वेळ (सरासरी) 71.1s

डोमेन-विशिष्ट क्रमवारी

मॉडेल फिल्टर करा

डोमेन-विशिष्ट स्कोअर नुसार शीर्ष मॉडेल्स

डोमेन-विशिष्ट स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स