डोमेन-विशिष्ट मॉडेल क्रमवारी

डोमेन-विशिष्ट मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: मेट्रिक ↑.

दाखवलेली मॉडेल्स

सरासरी डोमेन-विशिष्ट स्कोअर

4.7

सर्वोत्तम मॉडेल

GLM 5 Turbo 2.9

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह412 अयशस्वी होण्याचे कारण वेळ संपला सह43 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह17 अयशस्वी होण्याचे कारण उत्तर नाही सह8 अयशस्वी होण्याचे कारण API त्रुटी सह7 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह1

210/210

क्रमांक	मॉडेल	कंपनी	डोमेन-विशिष्ट स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#65	Gemini 3.1 Flash Lite medium	Google	2.9	7.3	$0.117	0/3	3.16s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.117 प्रतिसाद वेळ (सरासरी) 3.16s
#70	Qwen3.5 Plus 2026-04-20 medium	Qwen	2.9	7.2	$0.317	0/3	53.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.317 प्रतिसाद वेळ (सरासरी) 53.1s
#72	Qwen3.5-122B-A10B medium	Qwen	2.9	7.1	$1.046	0/3	63.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $1.046 प्रतिसाद वेळ (सरासरी) 63.4s
#78	Mercury 2 medium	Inception	2.9	7.0	$0.093	0/3	6.48s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.093 प्रतिसाद वेळ (सरासरी) 6.48s
#81	KAT-Coder-Pro V2.5 medium	Kwaipilot	2.9	6.9	$0.467	0/3	29.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.467 प्रतिसाद वेळ (सरासरी) 29.0s
#87	GPT-5.5 none	OpenAI	2.9	6.9	$0.544	0/3	1.31s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.544 प्रतिसाद वेळ (सरासरी) 1.31s
#99	Qwen3.6 27B medium	Qwen	2.9	6.5	$0.779	0/3	73.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.779 प्रतिसाद वेळ (सरासरी) 73.4s
#102	Laguna XS 2.1 medium	Poolside	2.9	6.5	$0.068	0/3	65.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.068 प्रतिसाद वेळ (सरासरी) 65.7s
#120	Gemini 3.1 Flash Lite minimal	Google	2.9	6.1	$0.047	0/3	1.02s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.047 प्रतिसाद वेळ (सरासरी) 1.02s
#122	Gemini 3.1 Flash Lite none	Google	2.9	6.1	$0.046	0/3	762ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.046 प्रतिसाद वेळ (सरासरी) 762ms
#144	KAT-Coder-Air V2.5 high	Kwaipilot	2.9	5.6	$0.077	0/3	7.47s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.077 प्रतिसाद वेळ (सरासरी) 7.47s
#151	GLM 5.1 none	Z.ai	2.9	5.5	$0.164	0/3	1.99s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.164 प्रतिसाद वेळ (सरासरी) 1.99s
#158	KAT-Coder-Air V2.5 low	Kwaipilot	2.9	5.4	$0.041	0/3	4.99s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.041 प्रतिसाद वेळ (सरासरी) 4.99s
#159	GPT-5.6 Luna none	OpenAI	2.9	5.4	$0.142	0/3	737ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.142 प्रतिसाद वेळ (सरासरी) 737ms
#173	DeepSeek V3.2 none	DeepSeek	2.9	5.0	$0.054	0/3	4.17s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.054 प्रतिसाद वेळ (सरासरी) 4.17s

डोमेन-विशिष्ट क्रमवारी

मॉडेल फिल्टर करा

डोमेन-विशिष्ट स्कोअर नुसार शीर्ष मॉडेल्स

डोमेन-विशिष्ट स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स