डोमेन-विशिष्ट मॉडेल क्रमवारी

डोमेन-विशिष्ट मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↓.

दाखवलेली मॉडेल्स

सरासरी डोमेन-विशिष्ट स्कोअर

4.7

सर्वोत्तम मॉडेल

Kimi K3 5.9

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह421 अयशस्वी होण्याचे कारण वेळ संपला सह43 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह17 अयशस्वी होण्याचे कारण उत्तर नाही सह8 अयशस्वी होण्याचे कारण API त्रुटी सह7 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह1

216/216

क्रमांक	मॉडेल	कंपनी	डोमेन-विशिष्ट स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#40	Qwen3.7 Plus medium	Qwen	3.6	7.9	$0.267	0/3	45.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.267 प्रतिसाद वेळ (सरासरी) 45.3s
#29	GPT-5 Mini medium	OpenAI	3.6	8.1	$0.237	0/3	44.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.237 प्रतिसाद वेळ (सरासरी) 44.6s
#38	GPT-5.6 Terra high	OpenAI	5.3	8.0	$1.055	1/3	43.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $1.055 प्रतिसाद वेळ (सरासरी) 43.4s
#71	Step 3.7 Flash low	Stepfun	5.3	7.3	$0.454	1/3	43.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.454 प्रतिसाद वेळ (सरासरी) 43.3s
#159	Hy3 preview low	Tencent	5.9	5.5	$0.015	1/3	40.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.015 प्रतिसाद वेळ (सरासरी) 40.4s
#8	GPT-5.6 Sol high	OpenAI	5.3	9.4	$1.234	1/3	39.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $1.234 प्रतिसाद वेळ (सरासरी) 39.5s
#116	Gemma 4 31B medium	Google	7.7	6.3	$0.107	2/3	38.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.107 प्रतिसाद वेळ (सरासरी) 38.5s
#57	GPT-5.4 Nano medium	OpenAI	5.9	7.5	$0.138	1/3	38.2s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.138 प्रतिसाद वेळ (सरासरी) 38.2s
#98	GLM 5V Turbo medium	Z.ai	5.3	6.7	$0.457	1/3	38.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.457 प्रतिसाद वेळ (सरासरी) 38.1s
#88	MiMo-V2.5-Pro medium	Xiaomi	5.3	6.9	$0.187	1/3	37.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.187 प्रतिसाद वेळ (सरासरी) 37.9s
#28	Gemini 2.5 Flash medium	Google	5.9	8.2	$0.643	1/3	37.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.643 प्रतिसाद वेळ (सरासरी) 37.3s
#36	Inkling medium	Thinkingmachines	5.3	8.0	$0.391	1/3	35.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.391 प्रतिसाद वेळ (सरासरी) 35.6s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	2.9	7.2	$0.482	0/3	35.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.482 प्रतिसाद वेळ (सरासरी) 35.3s
#212	gpt-oss-120b none	OpenAI	3.0	3.7	$0.010	0/3	35.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.010 प्रतिसाद वेळ (सरासरी) 35.0s
#215	Step 3.5 Flash none	Stepfun	3.3	2.3	$0.020	1/1	34.5s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.020 प्रतिसाद वेळ (सरासरी) 34.5s

डोमेन-विशिष्ट क्रमवारी

मॉडेल फिल्टर करा

डोमेन-विशिष्ट स्कोअर नुसार शीर्ष मॉडेल्स

डोमेन-विशिष्ट स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स