डोमेन-विशिष्ट मॉडेल क्रमवारी

डोमेन-विशिष्ट मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↓.

दाखवलेली मॉडेल्स

सरासरी डोमेन-विशिष्ट स्कोअर

4.7

सर्वोत्तम मॉडेल

Gemini 3.6 Flash 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह421 अयशस्वी होण्याचे कारण वेळ संपला सह43 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह17 अयशस्वी होण्याचे कारण उत्तर नाही सह8 अयशस्वी होण्याचे कारण API त्रुटी सह7 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह1

216/216

क्रमांक	मॉडेल	कंपनी	डोमेन-विशिष्ट स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#172	Qwen3 Coder Next none	Qwen	5.3	5.1	$0.025	1/3	962ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.025 प्रतिसाद वेळ (सरासरी) 962ms
#173	Mistral Small 4 medium	Mistral	5.3	5.1	$0.096	1/3	6.11s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.096 प्रतिसाद वेळ (सरासरी) 6.11s
#176	GLM 5 Turbo none	Z.ai	5.3	5.1	$0.047	1/3	1.97s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.047 प्रतिसाद वेळ (सरासरी) 1.97s
#185	Ring-2.6-1T none	Inclusionai	5.3	4.8	$0.026	1/3	73.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.026 प्रतिसाद वेळ (सरासरी) 73.4s
#189	Trinity Large Preview none	Arcee AI	5.3	4.8	$0.008	1/3	877ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 877ms
#191	Grok 4.1 Fast medium	X AI	5.8	4.7	$0.069	1/3	121.8s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.069 प्रतिसाद वेळ (सरासरी) 121.8s
#192	Laguna M.1 medium	Poolside	5.3	4.7	$0.033	1/3	24.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.033 प्रतिसाद वेळ (सरासरी) 24.1s
#193	Qwen3 Coder Next medium	Qwen	5.3	4.7	$0.032	1/3	638ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.032 प्रतिसाद वेळ (सरासरी) 638ms
#195	Mercury 2 none	Inception	5.3	4.6	$0.030	1/3	534ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.030 प्रतिसाद वेळ (सरासरी) 534ms
#202	Hunter Alpha none	OpenRouter	5.3	4.2	$0.000	1/3	2.33s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 2.33s
#206	MiMo-V2-Flash none	Xiaomi	5.3	4.0	$0.025	1/3	564ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.025 प्रतिसाद वेळ (सरासरी) 564ms
#209	Grok 4.1 Fast none	X AI	5.9	3.8	$0.008	1/3	1.06s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 1.06s
#211	Laguna Xs.2 none	Poolside	5.3	3.8	$0.004	1/3	371ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.004 प्रतिसाद वेळ (सरासरी) 371ms
#216	LFM2-24B-A2B none	Liquid	5.9	2.2	$0.001	1/3	287ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.001 प्रतिसाद वेळ (सरासरी) 287ms
#15	Grok 4.5 high	X AI	3.6	8.9	$1.707	0/3	332.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $1.707 प्रतिसाद वेळ (सरासरी) 332.1s

डोमेन-विशिष्ट क्रमवारी

मॉडेल फिल्टर करा

डोमेन-विशिष्ट स्कोअर नुसार शीर्ष मॉडेल्स

डोमेन-विशिष्ट स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स