डोमेन-विशिष्ट मॉडेल क्रमवारी

डोमेन-विशिष्ट मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा.

दाखवलेली मॉडेल्स

सरासरी डोमेन-विशिष्ट स्कोअर

4.7

सर्वोत्तम मॉडेल

Gemini 3.6 Flash 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह421 अयशस्वी होण्याचे कारण वेळ संपला सह43 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह17 अयशस्वी होण्याचे कारण उत्तर नाही सह8 अयशस्वी होण्याचे कारण API त्रुटी सह7 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह1

216/216

क्रमांक	मॉडेल	कंपनी	डोमेन-विशिष्ट स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#160	MiMo-V2.5-Pro none	Xiaomi	5.3	5.5	$0.068	1/3	877ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.068 प्रतिसाद वेळ (सरासरी) 877ms
#161	Kimi K2.5 none	Moonshot AI	5.3	5.5	$0.127	1/3	4.38s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.127 प्रतिसाद वेळ (सरासरी) 4.38s
#163	Mimo V2 Omni none	Xiaomi	5.3	5.5	$0.021	1/3	2.10s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.021 प्रतिसाद वेळ (सरासरी) 2.10s
#166	Laguna XS 2.1 none	Poolside	5.3	5.3	$0.008	1/3	364ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 364ms
#169	Gemini 3.1 Flash Lite Preview high	Google	5.3	5.3	$2.310	1/3	127.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $2.310 प्रतिसाद वेळ (सरासरी) 127.6s
#170	Inkling none	Thinkingmachines	5.3	5.2	$0.147	1/3	1.45s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.147 प्रतिसाद वेळ (सरासरी) 1.45s
#171	Mistral Small 4 none	Mistral	5.3	5.1	$0.022	1/3	367ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.022 प्रतिसाद वेळ (सरासरी) 367ms
#172	Qwen3 Coder Next none	Qwen	5.3	5.1	$0.025	1/3	962ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.025 प्रतिसाद वेळ (सरासरी) 962ms
#176	GLM 5 Turbo none	Z.ai	5.3	5.1	$0.047	1/3	1.97s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.047 प्रतिसाद वेळ (सरासरी) 1.97s
#189	Trinity Large Preview none	Arcee AI	5.3	4.8	$0.008	1/3	877ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 877ms
#193	Qwen3 Coder Next medium	Qwen	5.3	4.7	$0.032	1/3	638ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.032 प्रतिसाद वेळ (सरासरी) 638ms
#202	Hunter Alpha none	OpenRouter	5.3	4.2	$0.000	1/3	2.33s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 2.33s
#211	Laguna Xs.2 none	Poolside	5.3	3.8	$0.004	1/3	371ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.004 प्रतिसाद वेळ (सरासरी) 371ms
#5	GPT-5.6 Sol low	OpenAI	5.3	9.5	$0.971	1/3	29.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.971 प्रतिसाद वेळ (सरासरी) 29.1s
#8	GPT-5.6 Sol high	OpenAI	5.3	9.4	$1.234	1/3	39.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $1.234 प्रतिसाद वेळ (सरासरी) 39.5s

डोमेन-विशिष्ट क्रमवारी

मॉडेल फिल्टर करा

डोमेन-विशिष्ट स्कोअर नुसार शीर्ष मॉडेल्स

डोमेन-विशिष्ट स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स