डोमेन-विशिष्ट मॉडेल क्रमवारी

डोमेन-विशिष्ट मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↓.

दाखवलेली मॉडेल्स

सरासरी डोमेन-विशिष्ट स्कोअर

4.7

सर्वोत्तम मॉडेल

Gemini 3.6 Flash 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह421 अयशस्वी होण्याचे कारण वेळ संपला सह43 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह17 अयशस्वी होण्याचे कारण उत्तर नाही सह8 अयशस्वी होण्याचे कारण API त्रुटी सह7 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह1

216/216

क्रमांक	मॉडेल	कंपनी	डोमेन-विशिष्ट स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#145	GPT-5.4 none	OpenAI	5.3	5.8	$0.397	1/3	1.07s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.397 प्रतिसाद वेळ (सरासरी) 1.07s
#148	Qwen3.5-122B-A10B none	Qwen	5.3	5.7	$0.247	1/3	465ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.247 प्रतिसाद वेळ (सरासरी) 465ms
#151	GLM 5V Turbo none	Z.ai	5.3	5.6	$0.052	1/3	2.09s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.052 प्रतिसाद वेळ (सरासरी) 2.09s
#152	Owl Alpha medium	Openrouter	5.3	5.6	$0.000	1/3	8.58s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 8.58s
#153	Mimo V2 PRO none	Xiaomi	5.3	5.6	$0.045	1/3	1.78s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.045 प्रतिसाद वेळ (सरासरी) 1.78s
#154	Owl Alpha none	Openrouter	5.3	5.6	$0.000	1/3	3.00s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 3.00s
#156	DeepSeek V4 Flash none	DeepSeek	5.3	5.6	$0.042	1/3	19.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.042 प्रतिसाद वेळ (सरासरी) 19.7s
#159	Hy3 preview low	Tencent	5.9	5.5	$0.015	1/3	40.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.015 प्रतिसाद वेळ (सरासरी) 40.4s
#160	MiMo-V2.5-Pro none	Xiaomi	5.3	5.5	$0.068	1/3	877ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.068 प्रतिसाद वेळ (सरासरी) 877ms
#161	Kimi K2.5 none	Moonshot AI	5.3	5.5	$0.127	1/3	4.38s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.127 प्रतिसाद वेळ (सरासरी) 4.38s
#163	Mimo V2 Omni none	Xiaomi	5.3	5.5	$0.021	1/3	2.10s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.021 प्रतिसाद वेळ (सरासरी) 2.10s
#166	Laguna XS 2.1 none	Poolside	5.3	5.3	$0.008	1/3	364ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 364ms
#169	Gemini 3.1 Flash Lite Preview high	Google	5.3	5.3	$2.310	1/3	127.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $2.310 प्रतिसाद वेळ (सरासरी) 127.6s
#170	Inkling none	Thinkingmachines	5.3	5.2	$0.147	1/3	1.45s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.147 प्रतिसाद वेळ (सरासरी) 1.45s
#171	Mistral Small 4 none	Mistral	5.3	5.1	$0.022	1/3	367ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.022 प्रतिसाद वेळ (सरासरी) 367ms

डोमेन-विशिष्ट क्रमवारी

मॉडेल फिल्टर करा

डोमेन-विशिष्ट स्कोअर नुसार शीर्ष मॉडेल्स

डोमेन-विशिष्ट स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स