डोमेन-विशिष्ट मॉडेल क्रमवारी

डोमेन-विशिष्ट मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↓.

दाखवलेली मॉडेल्स

सरासरी डोमेन-विशिष्ट स्कोअर

4.7

सर्वोत्तम मॉडेल

Kimi K3 5.9

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह421 अयशस्वी होण्याचे कारण वेळ संपला सह43 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह17 अयशस्वी होण्याचे कारण उत्तर नाही सह8 अयशस्वी होण्याचे कारण API त्रुटी सह7 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह1

216/216

क्रमांक	मॉडेल	कंपनी	डोमेन-विशिष्ट स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#100	Gemma 4 26B A4B medium	Google	2.9	6.6	$0.089	0/3	23.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.089 प्रतिसाद वेळ (सरासरी) 23.6s
#43	GPT-5.6 Terra medium	OpenAI	5.3	7.8	$0.676	1/3	23.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.676 प्रतिसाद वेळ (सरासरी) 23.4s
#94	Qwen3.6 35B A3B medium	Qwen	5.3	6.7	$0.746	1/3	22.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.746 प्रतिसाद वेळ (सरासरी) 22.5s
#106	Hy3 preview medium	Tencent	5.3	6.5	$0.018	1/3	22.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.018 प्रतिसाद वेळ (सरासरी) 22.3s
#181	Qwen3.6 Plus Preview medium	Qwen	3.0	4.9	$0.000	0/3	22.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 22.1s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	3.6	6.7	$0.476	0/3	21.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.476 प्रतिसाद वेळ (सरासरी) 21.6s
#137	Grok 4.20 Beta medium	X AI	5.3	6.0	$0.750	1/3	21.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.750 प्रतिसाद वेळ (सरासरी) 21.3s
#26	Claude Sonnet 5 medium	Anthropic	7.7	8.3	$0.922	2/3	20.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.922 प्रतिसाद वेळ (सरासरी) 20.4s
#156	DeepSeek V4 Flash none	DeepSeek	5.3	5.6	$0.042	1/3	19.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.042 प्रतिसाद वेळ (सरासरी) 19.7s
#31	Gemini 3.5 Flash-Lite high	Google	5.3	8.1	$0.584	1/3	19.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.584 प्रतिसाद वेळ (सरासरी) 19.5s
#178	MiniMax M2.7 medium	Minimax	3.0	5.0	$0.163	0/3	19.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.163 प्रतिसाद वेळ (सरासरी) 19.0s
#34	GPT-5.2 Chat none	OpenAI	5.3	8.0	$0.604	1/3	17.8s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.604 प्रतिसाद वेळ (सरासरी) 17.8s
#205	Hy3 preview none	Tencent	3.6	4.0	$0.003	0/3	17.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.003 प्रतिसाद वेळ (सरासरी) 17.6s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	4.1	7.4	$0.387	0/3	17.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.387 प्रतिसाद वेळ (सरासरी) 17.5s
#61	Qwen3.5 Plus 2026-02-15 medium	Qwen	5.3	7.5	$0.437	1/3	17.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.437 प्रतिसाद वेळ (सरासरी) 17.5s

डोमेन-विशिष्ट क्रमवारी

मॉडेल फिल्टर करा

डोमेन-विशिष्ट स्कोअर नुसार शीर्ष मॉडेल्स

डोमेन-विशिष्ट स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स