डोमेन-विशिष्ट मॉडेल क्रमवारी

डोमेन-विशिष्ट मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↓.

दाखवलेली मॉडेल्स

सरासरी डोमेन-विशिष्ट स्कोअर

4.7

सर्वोत्तम मॉडेल

Gemini 3.6 Flash 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह421 अयशस्वी होण्याचे कारण वेळ संपला सह43 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह17 अयशस्वी होण्याचे कारण उत्तर नाही सह8 अयशस्वी होण्याचे कारण API त्रुटी सह7 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह1

216/216

क्रमांक	मॉडेल	कंपनी	डोमेन-विशिष्ट स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#78	GLM 5.1 medium	Z.ai	5.3	7.1	$0.535	1/3	29.8s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.535 प्रतिसाद वेळ (सरासरी) 29.8s
#79	Grok 4.20 medium	X AI	5.3	7.1	$0.777	1/3	27.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.777 प्रतिसाद वेळ (सरासरी) 27.0s
#86	DeepSeek V4 Pro none	DeepSeek	5.3	6.9	$0.096	1/3	3.72s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.096 प्रतिसाद वेळ (सरासरी) 3.72s
#88	MiMo-V2.5-Pro medium	Xiaomi	5.3	6.9	$0.187	1/3	37.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.187 प्रतिसाद वेळ (सरासरी) 37.9s
#94	Qwen3.6 35B A3B medium	Qwen	5.3	6.7	$0.746	1/3	22.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.746 प्रतिसाद वेळ (सरासरी) 22.5s
#98	GLM 5V Turbo medium	Z.ai	5.3	6.7	$0.457	1/3	38.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.457 प्रतिसाद वेळ (सरासरी) 38.1s
#101	GLM 5.2 none	Z.ai	5.3	6.6	$0.128	1/3	4.04s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.128 प्रतिसाद वेळ (सरासरी) 4.04s
#106	Hy3 preview medium	Tencent	5.3	6.5	$0.018	1/3	22.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.018 प्रतिसाद वेळ (सरासरी) 22.3s
#107	MiMo-V2.5 medium	Xiaomi	5.3	6.5	$0.082	1/3	34.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.082 प्रतिसाद वेळ (सरासरी) 34.5s
#110	Gemini 3.1 Flash Lite Preview low	Google	5.3	6.5	$0.646	1/3	2.36s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.646 प्रतिसाद वेळ (सरासरी) 2.36s
#111	Gemini 3.1 Flash Lite low	Google	5.3	6.5	$0.621	1/3	1.52s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.621 प्रतिसाद वेळ (सरासरी) 1.52s
#112	Gemini 3.1 Flash Lite Preview none	Google	5.3	6.4	$0.052	1/3	942ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.052 प्रतिसाद वेळ (सरासरी) 942ms
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	5.3	6.4	$0.073	1/3	1.17s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.073 प्रतिसाद वेळ (सरासरी) 1.17s
#115	Mimo V2 PRO medium	Xiaomi	5.3	6.3	$0.333	1/3	8.82s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.333 प्रतिसाद वेळ (सरासरी) 8.82s
#118	Claude Sonnet 5 none	Anthropic	5.3	6.3	$0.548	1/3	3.28s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.548 प्रतिसाद वेळ (सरासरी) 3.28s

डोमेन-विशिष्ट क्रमवारी

मॉडेल फिल्टर करा

डोमेन-विशिष्ट स्कोअर नुसार शीर्ष मॉडेल्स

डोमेन-विशिष्ट स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स