डोमेन-विशिष्ट मॉडेल क्रमवारी

डोमेन-विशिष्ट मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↑.

दाखवलेली मॉडेल्स

सरासरी डोमेन-विशिष्ट स्कोअर

4.7

सर्वोत्तम मॉडेल

Grok 4.5 3.6

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह421 अयशस्वी होण्याचे कारण वेळ संपला सह43 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह17 अयशस्वी होण्याचे कारण उत्तर नाही सह8 अयशस्वी होण्याचे कारण API त्रुटी सह7 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह1

216/216

क्रमांक	मॉडेल	कंपनी	डोमेन-विशिष्ट स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#56	Kimi K2.7 Code medium	Moonshot AI	5.5	7.5	$0.740	1/3	213.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.740 प्रतिसाद वेळ (सरासरी) 213.3s
#57	GPT-5.4 Nano medium	OpenAI	5.9	7.5	$0.138	1/3	38.2s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.138 प्रतिसाद वेळ (सरासरी) 38.2s
#59	GPT-5.6 Terra low	OpenAI	5.3	7.5	$0.519	1/3	8.34s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.519 प्रतिसाद वेळ (सरासरी) 8.34s
#61	Qwen3.5 Plus 2026-02-15 medium	Qwen	5.3	7.5	$0.437	1/3	17.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.437 प्रतिसाद वेळ (सरासरी) 17.5s
#62	Qwen3.5-27B medium	Qwen	5.3	7.4	$1.627	1/3	79.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $1.627 प्रतिसाद वेळ (सरासरी) 79.5s
#65	Gemini 3 Flash Preview low	Google	5.3	7.4	$0.177	1/3	8.05s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.177 प्रतिसाद वेळ (सरासरी) 8.05s
#70	Claude Opus 4.8 none	Anthropic	5.3	7.3	$1.166	1/3	1.70s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $1.166 प्रतिसाद वेळ (सरासरी) 1.70s
#71	Step 3.7 Flash low	Stepfun	5.3	7.3	$0.454	1/3	43.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.454 प्रतिसाद वेळ (सरासरी) 43.3s
#72	Kimi K2.6 medium	Moonshot AI	5.3	7.2	$1.036	1/3	202.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $1.036 प्रतिसाद वेळ (सरासरी) 202.4s
#77	Grok 4.3 medium	X AI	5.3	7.1	$0.779	1/3	181.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.779 प्रतिसाद वेळ (सरासरी) 181.7s
#78	GLM 5.1 medium	Z.ai	5.3	7.1	$0.535	1/3	29.8s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.535 प्रतिसाद वेळ (सरासरी) 29.8s
#79	Grok 4.20 medium	X AI	5.3	7.1	$0.777	1/3	27.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.777 प्रतिसाद वेळ (सरासरी) 27.0s
#86	DeepSeek V4 Pro none	DeepSeek	5.3	6.9	$0.096	1/3	3.72s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.096 प्रतिसाद वेळ (सरासरी) 3.72s
#88	MiMo-V2.5-Pro medium	Xiaomi	5.3	6.9	$0.187	1/3	37.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.187 प्रतिसाद वेळ (सरासरी) 37.9s
#94	Qwen3.6 35B A3B medium	Qwen	5.3	6.7	$0.746	1/3	22.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.746 प्रतिसाद वेळ (सरासरी) 22.5s

डोमेन-विशिष्ट क्रमवारी

मॉडेल फिल्टर करा

डोमेन-विशिष्ट स्कोअर नुसार शीर्ष मॉडेल्स

डोमेन-विशिष्ट स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स