डोमेन-विशिष्ट मॉडेल क्रमवारी

डोमेन-विशिष्ट मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↑.

दाखवलेली मॉडेल्स

सरासरी डोमेन-विशिष्ट स्कोअर

4.7

सर्वोत्तम मॉडेल

Grok 4.5 3.6

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह412 अयशस्वी होण्याचे कारण वेळ संपला सह43 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह17 अयशस्वी होण्याचे कारण उत्तर नाही सह8 अयशस्वी होण्याचे कारण API त्रुटी सह7 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह1

210/210

क्रमांक	मॉडेल	कंपनी	डोमेन-विशिष्ट स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#45	DeepSeek V4 Flash high	DeepSeek	4.1	7.7	$0.042	0/3	100.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.042 प्रतिसाद वेळ (सरासरी) 100.3s
#46	DeepSeek V4 Pro high	DeepSeek	3.6	7.7	$0.200	0/3	151.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.200 प्रतिसाद वेळ (सरासरी) 151.5s
#49	GLM 5 Turbo medium	Z.ai	2.9	7.6	$0.323	0/3	71.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.323 प्रतिसाद वेळ (सरासरी) 71.1s
#51	Nemotron 3 Ultra medium	NVIDIA	3.5	7.5	$0.774	0/3	24.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.774 प्रतिसाद वेळ (सरासरी) 24.9s
#54	GPT-5.3 Chat none	OpenAI	3.5	7.5	$0.571	0/3	13.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.571 प्रतिसाद वेळ (सरासरी) 13.0s
#56	GPT-5.4 Mini medium	OpenAI	4.1	7.5	$0.756	0/3	65.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.756 प्रतिसाद वेळ (सरासरी) 65.3s
#60	LongCat 2.0 medium	Meituan	2.9	7.4	$0.478	0/3	339.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.478 प्रतिसाद वेळ (सरासरी) 339.9s
#62	KAT-Coder-Pro V2.5 low	Kwaipilot	4.1	7.4	$0.387	0/3	17.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.387 प्रतिसाद वेळ (सरासरी) 17.5s
#64	Gemini 3.1 Flash Lite Preview medium	Google	3.0	7.3	$0.115	0/3	4.21s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.115 प्रतिसाद वेळ (सरासरी) 4.21s
#65	Gemini 3.1 Flash Lite medium	Google	2.9	7.3	$0.117	0/3	3.16s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.117 प्रतिसाद वेळ (सरासरी) 3.16s
#69	KAT-Coder-Pro V2.5 high	Kwaipilot	2.9	7.2	$0.482	0/3	35.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.482 प्रतिसाद वेळ (सरासरी) 35.3s
#70	Qwen3.5 Plus 2026-04-20 medium	Qwen	2.9	7.2	$0.317	0/3	53.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.317 प्रतिसाद वेळ (सरासरी) 53.1s
#71	Qwen3.7 Plus none	Qwen	3.0	7.2	$0.106	0/3	868ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.106 प्रतिसाद वेळ (सरासरी) 868ms
#72	Qwen3.5-122B-A10B medium	Qwen	2.9	7.1	$1.046	0/3	63.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $1.046 प्रतिसाद वेळ (सरासरी) 63.4s
#76	DeepSeek V3.2 medium	DeepSeek	2.9	7.0	$0.078	0/3	24.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.078 प्रतिसाद वेळ (सरासरी) 24.3s

डोमेन-विशिष्ट क्रमवारी

मॉडेल फिल्टर करा

डोमेन-विशिष्ट स्कोअर नुसार शीर्ष मॉडेल्स

डोमेन-विशिष्ट स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स