डोमेन-विशिष्ट मॉडेल क्रमवारी

डोमेन-विशिष्ट मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: मेट्रिक ↑.

दाखवलेली मॉडेल्स

सरासरी डोमेन-विशिष्ट स्कोअर

4.7

सर्वोत्तम मॉडेल

GLM 5 Turbo 2.9

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह412 अयशस्वी होण्याचे कारण वेळ संपला सह43 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह17 अयशस्वी होण्याचे कारण उत्तर नाही सह8 अयशस्वी होण्याचे कारण API त्रुटी सह7 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह1

210/210

क्रमांक	मॉडेल	कंपनी	डोमेन-विशिष्ट स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#181	Grok 4.20 Multi Agent Beta medium	X AI	2.9	4.8	$5.599	0/3	24.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $5.599 प्रतिसाद वेळ (सरासरी) 24.7s
#182	KAT-Coder-Air V2.5 none	Kwaipilot	2.9	4.8	$0.067	0/3	6.24s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.067 प्रतिसाद वेळ (सरासरी) 6.24s
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	2.9	3.4	$0.000	0/3	56.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 56.7s
#20	Grok 4.5 low	X AI	3.0	8.4	$0.935	0/3	72.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.935 प्रतिसाद वेळ (सरासरी) 72.6s
#43	Claude Opus 4.6 medium	Anthropic	3.0	7.7	$3.059	0/3	83.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $3.059 प्रतिसाद वेळ (सरासरी) 83.4s
#64	Gemini 3.1 Flash Lite Preview medium	Google	3.0	7.3	$0.115	0/3	4.21s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.115 प्रतिसाद वेळ (सरासरी) 4.21s
#71	Qwen3.7 Plus none	Qwen	3.0	7.2	$0.106	0/3	868ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.106 प्रतिसाद वेळ (सरासरी) 868ms
#80	Seed-2.0-Mini medium	Bytedance Seed	3.0	7.0	$0.101	0/3	0ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.101 प्रतिसाद वेळ (सरासरी) 0ms
#91	LongCat 2.0 low	Meituan	3.0	6.7	$0.391	0/3	86.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.391 प्रतिसाद वेळ (सरासरी) 86.1s
#103	Qwen3.5-27B none	Qwen	3.0	6.5	$0.090	0/3	540ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.090 प्रतिसाद वेळ (सरासरी) 540ms
#111	LongCat 2.0 none	Meituan	3.0	6.3	$0.044	0/3	1.72s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.044 प्रतिसाद वेळ (सरासरी) 1.72s
#134	Mimo V2 Omni medium	Xiaomi	3.0	5.9	$0.683	0/3	47.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.683 प्रतिसाद वेळ (सरासरी) 47.9s
#141	GLM 5 none	Z.ai	3.0	5.7	$0.041	0/3	2.24s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.041 प्रतिसाद वेळ (सरासरी) 2.24s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	3.0	5.6	$0.048	0/3	4.87s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.048 प्रतिसाद वेळ (सरासरी) 4.87s
#162	Ling-2.6-1T none	Inclusionai	3.0	5.3	$0.016	0/3	1.04s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.016 प्रतिसाद वेळ (सरासरी) 1.04s

डोमेन-विशिष्ट क्रमवारी

मॉडेल फिल्टर करा

डोमेन-विशिष्ट स्कोअर नुसार शीर्ष मॉडेल्स

डोमेन-विशिष्ट स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स