डोमेन-विशिष्ट मॉडेल क्रमवारी

डोमेन-विशिष्ट मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↑.

दाखवलेली मॉडेल्स

सरासरी डोमेन-विशिष्ट स्कोअर

4.7

सर्वोत्तम मॉडेल

Claude Sonnet 4.6 2.9

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह421 अयशस्वी होण्याचे कारण वेळ संपला सह43 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह17 अयशस्वी होण्याचे कारण उत्तर नाही सह8 अयशस्वी होण्याचे कारण API त्रुटी सह7 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह1

216/216

क्रमांक	मॉडेल	कंपनी	डोमेन-विशिष्ट स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#6	Gemini 3.6 Flash low	Google	10.0	9.4	$0.517	3/3	3.96s
एकूण चाचण्या 3 चुकीच्या चाचण्या 0 एकूण खर्च $0.517 प्रतिसाद वेळ (सरासरी) 3.96s
#101	GLM 5.2 none	Z.ai	5.3	6.6	$0.128	1/3	4.04s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.128 प्रतिसाद वेळ (सरासरी) 4.04s
#179	DeepSeek V3.2 none	DeepSeek	2.9	5.0	$0.054	0/3	4.17s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.054 प्रतिसाद वेळ (सरासरी) 4.17s
#68	Gemini 3.1 Flash Lite Preview medium	Google	3.0	7.3	$0.115	0/3	4.21s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.115 प्रतिसाद वेळ (सरासरी) 4.21s
#161	Kimi K2.5 none	Moonshot AI	5.3	5.5	$0.127	1/3	4.38s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.127 प्रतिसाद वेळ (सरासरी) 4.38s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	5.3	6.1	$0.122	1/3	4.43s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.122 प्रतिसाद वेळ (सरासरी) 4.43s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	3.0	5.6	$0.048	0/3	4.87s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.048 प्रतिसाद वेळ (सरासरी) 4.87s
#184	Ling-2.6-flash none	Inclusionai	3.0	4.9	$0.002	0/3	4.95s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.002 प्रतिसाद वेळ (सरासरी) 4.95s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	2.9	5.4	$0.041	0/3	4.99s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.041 प्रतिसाद वेळ (सरासरी) 4.99s
#12	Gemini 3.5 Flash medium	Google	7.7	9.1	$0.642	2/3	5.24s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.642 प्रतिसाद वेळ (सरासरी) 5.24s
#198	Laguna M.1 none	Poolside	3.6	4.4	$0.009	0/3	5.50s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.009 प्रतिसाद वेळ (सरासरी) 5.50s
#173	Mistral Small 4 medium	Mistral	5.3	5.1	$0.096	1/3	6.11s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.096 प्रतिसाद वेळ (सरासरी) 6.11s
#183	Nemotron 3 Super none	NVIDIA	3.6	4.9	$0.008	0/3	6.23s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 6.23s
#188	KAT-Coder-Air V2.5 none	Kwaipilot	2.9	4.8	$0.067	0/3	6.24s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.067 प्रतिसाद वेळ (सरासरी) 6.24s
#82	Mercury 2 medium	Inception	2.9	7.0	$0.093	0/3	6.48s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.093 प्रतिसाद वेळ (सरासरी) 6.48s

डोमेन-विशिष्ट क्रमवारी

मॉडेल फिल्टर करा

डोमेन-विशिष्ट स्कोअर नुसार शीर्ष मॉडेल्स

डोमेन-विशिष्ट स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स