डोमेन-विशिष्ट मॉडेल क्रमवारी

डोमेन-विशिष्ट मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↑.

दाखवलेली मॉडेल्स

सरासरी डोमेन-विशिष्ट स्कोअर

4.7

सर्वोत्तम मॉडेल

Claude Sonnet 4.6 2.9

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह421 अयशस्वी होण्याचे कारण वेळ संपला सह43 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह17 अयशस्वी होण्याचे कारण उत्तर नाही सह8 अयशस्वी होण्याचे कारण API त्रुटी सह7 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह1

216/216

क्रमांक	मॉडेल	कंपनी	डोमेन-विशिष्ट स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#5	GPT-5.6 Sol low	OpenAI	5.3	9.5	$0.971	1/3	29.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.971 प्रतिसाद वेळ (सरासरी) 29.1s
#41	Qwen3.6 Plus medium	Qwen	2.9	7.8	$0.405	0/3	29.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.405 प्रतिसाद वेळ (सरासरी) 29.6s
#27	Muse Spark 1.1 low	Meta	2.9	8.3	$0.647	0/3	29.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.647 प्रतिसाद वेळ (सरासरी) 29.7s
#78	GLM 5.1 medium	Z.ai	5.3	7.1	$0.535	1/3	29.8s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.535 प्रतिसाद वेळ (सरासरी) 29.8s
#10	Gemini 3.1 Pro Preview medium	Google	7.7	9.2	$1.361	2/3	32.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $1.361 प्रतिसाद वेळ (सरासरी) 32.7s
#107	MiMo-V2.5 medium	Xiaomi	5.3	6.5	$0.082	1/3	34.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.082 प्रतिसाद वेळ (सरासरी) 34.5s
#215	Step 3.5 Flash none	Stepfun	3.3	2.3	$0.020	1/1	34.5s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.020 प्रतिसाद वेळ (सरासरी) 34.5s
#212	gpt-oss-120b none	OpenAI	3.0	3.7	$0.010	0/3	35.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.010 प्रतिसाद वेळ (सरासरी) 35.0s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	2.9	7.2	$0.482	0/3	35.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.482 प्रतिसाद वेळ (सरासरी) 35.3s
#36	Inkling medium	Thinkingmachines	5.3	8.0	$0.391	1/3	35.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.391 प्रतिसाद वेळ (सरासरी) 35.6s
#28	Gemini 2.5 Flash medium	Google	5.9	8.2	$0.643	1/3	37.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.643 प्रतिसाद वेळ (सरासरी) 37.3s
#88	MiMo-V2.5-Pro medium	Xiaomi	5.3	6.9	$0.187	1/3	37.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.187 प्रतिसाद वेळ (सरासरी) 37.9s
#98	GLM 5V Turbo medium	Z.ai	5.3	6.7	$0.457	1/3	38.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.457 प्रतिसाद वेळ (सरासरी) 38.1s
#57	GPT-5.4 Nano medium	OpenAI	5.9	7.5	$0.138	1/3	38.2s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.138 प्रतिसाद वेळ (सरासरी) 38.2s
#116	Gemma 4 31B medium	Google	7.7	6.3	$0.107	2/3	38.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.107 प्रतिसाद वेळ (सरासरी) 38.5s

←

1 9 10 11 15

→

डोमेन-विशिष्ट क्रमवारी

मॉडेल फिल्टर करा

डोमेन-विशिष्ट स्कोअर नुसार शीर्ष मॉडेल्स

डोमेन-विशिष्ट स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स