डोमेन-विशिष्ट मॉडेल क्रमवारी

डोमेन-विशिष्ट मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↑.

दाखवलेली मॉडेल्स

सरासरी डोमेन-विशिष्ट स्कोअर

4.7

सर्वोत्तम मॉडेल

Grok 4.5 3.6

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह421 अयशस्वी होण्याचे कारण वेळ संपला सह43 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह17 अयशस्वी होण्याचे कारण उत्तर नाही सह8 अयशस्वी होण्याचे कारण API त्रुटी सह7 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह1

216/216

क्रमांक	मॉडेल	कंपनी	डोमेन-विशिष्ट स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#150	KAT-Coder-Air V2.5 high	Kwaipilot	2.9	5.6	$0.077	0/3	7.47s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.077 प्रतिसाद वेळ (सरासरी) 7.47s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	3.0	5.6	$0.048	0/3	4.87s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.048 प्रतिसाद वेळ (सरासरी) 4.87s
#157	GLM 5.1 none	Z.ai	2.9	5.5	$0.164	0/3	1.99s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.164 प्रतिसाद वेळ (सरासरी) 1.99s
#162	Gemma 4 26B A4B none	Google	3.6	5.5	$0.015	0/3	2.49s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.015 प्रतिसाद वेळ (सरासरी) 2.49s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	2.9	5.4	$0.041	0/3	4.99s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.041 प्रतिसाद वेळ (सरासरी) 4.99s
#165	GPT-5.6 Luna none	OpenAI	2.9	5.4	$0.142	0/3	737ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.142 प्रतिसाद वेळ (सरासरी) 737ms
#167	Qwen3.6 35B A3B none	Qwen	3.5	5.3	$0.061	0/3	7.45s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.061 प्रतिसाद वेळ (सरासरी) 7.45s
#168	Ling-2.6-1T none	Inclusionai	3.0	5.3	$0.016	0/3	1.04s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.016 प्रतिसाद वेळ (सरासरी) 1.04s
#174	MiMo-V2.5 none	Xiaomi	3.0	5.1	$0.025	0/3	756ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.025 प्रतिसाद वेळ (सरासरी) 756ms
#175	Qwen3.5-9B none	Qwen	3.0	5.1	$0.021	0/3	464ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.021 प्रतिसाद वेळ (सरासरी) 464ms
#177	North Mini Code none	Cohere	3.0	5.1	$0.000	0/3	14.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 14.7s
#178	MiniMax M2.7 medium	Minimax	3.0	5.0	$0.163	0/3	19.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.163 प्रतिसाद वेळ (सरासरी) 19.0s
#179	DeepSeek V3.2 none	DeepSeek	2.9	5.0	$0.054	0/3	4.17s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.054 प्रतिसाद वेळ (सरासरी) 4.17s
#180	GPT-4o-mini none	OpenAI	3.0	5.0	$0.010	0/3	637ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.010 प्रतिसाद वेळ (सरासरी) 637ms
#181	Qwen3.6 Plus Preview medium	Qwen	3.0	4.9	$0.000	0/3	22.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 22.1s

डोमेन-विशिष्ट क्रमवारी

मॉडेल फिल्टर करा

डोमेन-विशिष्ट स्कोअर नुसार शीर्ष मॉडेल्स

डोमेन-विशिष्ट स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स