डोमेन-विशिष्ट मॉडेल क्रमवारी

डोमेन-विशिष्ट मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा.

दाखवलेली मॉडेल्स

सरासरी डोमेन-विशिष्ट स्कोअर

4.7

सर्वोत्तम मॉडेल

Gemini 3.6 Flash 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह421 अयशस्वी होण्याचे कारण वेळ संपला सह43 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह17 अयशस्वी होण्याचे कारण उत्तर नाही सह8 अयशस्वी होण्याचे कारण API त्रुटी सह7 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह1

216/216

क्रमांक	मॉडेल	कंपनी	डोमेन-विशिष्ट स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#136	Step 3.5 Flash medium	Stepfun	5.3	6.0	$0.108	1/3	170.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.108 प्रतिसाद वेळ (सरासरी) 170.5s
#138	GPT-5.6 Terra none	OpenAI	5.3	6.0	$0.349	1/3	757ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.349 प्रतिसाद वेळ (सरासरी) 757ms
#141	Hy3 preview high	Tencent	5.3	5.9	$0.048	1/3	109.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.048 प्रतिसाद वेळ (सरासरी) 109.0s
#143	North Mini Code medium	Cohere	5.3	5.9	$0.000	1/3	71.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 71.4s
#144	Kimi K2.6 none	Moonshot AI	5.3	5.8	$0.184	1/3	1.48s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.184 प्रतिसाद वेळ (सरासरी) 1.48s
#145	GPT-5.4 none	OpenAI	5.3	5.8	$0.397	1/3	1.07s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.397 प्रतिसाद वेळ (सरासरी) 1.07s
#153	Mimo V2 PRO none	Xiaomi	5.3	5.6	$0.045	1/3	1.78s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.045 प्रतिसाद वेळ (सरासरी) 1.78s
#173	Mistral Small 4 medium	Mistral	5.3	5.1	$0.096	1/3	6.11s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.096 प्रतिसाद वेळ (सरासरी) 6.11s
#185	Ring-2.6-1T none	Inclusionai	5.3	4.8	$0.026	1/3	73.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.026 प्रतिसाद वेळ (सरासरी) 73.4s
#192	Laguna M.1 medium	Poolside	5.3	4.7	$0.033	1/3	24.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.033 प्रतिसाद वेळ (सरासरी) 24.1s
#195	Mercury 2 none	Inception	5.3	4.6	$0.030	1/3	534ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.030 प्रतिसाद वेळ (सरासरी) 534ms
#206	MiMo-V2-Flash none	Xiaomi	5.3	4.0	$0.025	1/3	564ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.025 प्रतिसाद वेळ (सरासरी) 564ms
#134	GPT-5 Nano medium	OpenAI	5.2	6.1	$0.114	1/3	204.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.114 प्रतिसाद वेळ (सरासरी) 204.0s
#42	GLM 5.2 medium	Z.ai	4.1	7.8	$0.187	0/3	45.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.187 प्रतिसाद वेळ (सरासरी) 45.5s
#49	DeepSeek V4 Flash high	DeepSeek	4.1	7.7	$0.041	0/3	100.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.041 प्रतिसाद वेळ (सरासरी) 100.3s

डोमेन-विशिष्ट क्रमवारी

मॉडेल फिल्टर करा

डोमेन-विशिष्ट स्कोअर नुसार शीर्ष मॉडेल्स

डोमेन-विशिष्ट स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स