डोमेन-विशिष्ट मॉडेल क्रमवारी

डोमेन-विशिष्ट मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↑.

दाखवलेली मॉडेल्स

सरासरी डोमेन-विशिष्ट स्कोअर

4.7

सर्वोत्तम मॉडेल

Grok 4.5 3.6

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह421 अयशस्वी होण्याचे कारण वेळ संपला सह43 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह17 अयशस्वी होण्याचे कारण उत्तर नाही सह8 अयशस्वी होण्याचे कारण API त्रुटी सह7 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह1

216/216

क्रमांक	मॉडेल	कंपनी	डोमेन-विशिष्ट स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#183	Nemotron 3 Super none	NVIDIA	3.6	4.9	$0.008	0/3	6.23s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 6.23s
#184	Ling-2.6-flash none	Inclusionai	3.0	4.9	$0.002	0/3	4.95s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.002 प्रतिसाद वेळ (सरासरी) 4.95s
#186	GPT-5.4 Nano none	OpenAI	2.9	4.8	$0.041	0/3	926ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.041 प्रतिसाद वेळ (सरासरी) 926ms
#187	Grok 4.20 Multi Agent Beta medium	X AI	2.9	4.8	$5.599	0/3	24.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $5.599 प्रतिसाद वेळ (सरासरी) 24.7s
#188	KAT-Coder-Air V2.5 none	Kwaipilot	2.9	4.8	$0.067	0/3	6.24s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.067 प्रतिसाद वेळ (सरासरी) 6.24s
#190	Hunter Alpha medium	OpenRouter	3.0	4.7	$0.000	0/3	10.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 10.5s
#194	Cobuddy medium	Baidu	2.9	4.7	$0.000	0/3	128.2s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 128.2s
#196	MiniMax M2.5 medium	Minimax	2.9	4.6	$0.340	0/3	237.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.340 प्रतिसाद वेळ (सरासरी) 237.3s
#197	Grok 4.20 Beta none	X AI	3.0	4.4	$0.087	0/3	611ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.087 प्रतिसाद वेळ (सरासरी) 611ms
#198	Laguna M.1 none	Poolside	3.6	4.4	$0.009	0/3	5.50s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.009 प्रतिसाद वेळ (सरासरी) 5.50s
#199	Elephant Alpha none	Openrouter	3.0	4.3	$0.000	0/3	927ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 927ms
#200	GLM 4.7 Flash medium	Z.ai	3.5	4.3	$0.166	0/3	174.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.166 प्रतिसाद वेळ (सरासरी) 174.6s
#201	Elephant Alpha medium	Openrouter	3.0	4.3	$0.000	0/3	925ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 925ms
#203	Grok 4.20 none	X AI	3.0	4.1	$0.057	0/3	687ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.057 प्रतिसाद वेळ (सरासरी) 687ms
#204	Laguna Xs.2 medium	Poolside	4.1	4.1	$0.015	0/3	11.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.015 प्रतिसाद वेळ (सरासरी) 11.1s

डोमेन-विशिष्ट क्रमवारी

मॉडेल फिल्टर करा

डोमेन-विशिष्ट स्कोअर नुसार शीर्ष मॉडेल्स

डोमेन-विशिष्ट स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स