डोमेन-विशिष्ट मॉडेल क्रमवारी

डोमेन-विशिष्ट मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा.

दाखवलेली मॉडेल्स

सरासरी डोमेन-विशिष्ट स्कोअर

4.7

सर्वोत्तम मॉडेल

Gemini 3 Flash Preview 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह412 अयशस्वी होण्याचे कारण वेळ संपला सह43 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह17 अयशस्वी होण्याचे कारण उत्तर नाही सह8 अयशस्वी होण्याचे कारण API त्रुटी सह7 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह1

210/210

क्रमांक	मॉडेल	कंपनी	डोमेन-विशिष्ट स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#113	MiMo-V2-Flash medium	Xiaomi	5.9	6.3	$0.043	1/3	96.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.043 प्रतिसाद वेळ (सरासरी) 96.0s
#118	Gemini 2.5 Flash none	Google	5.9	6.2	$0.017	1/3	495ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.017 प्रतिसाद वेळ (सरासरी) 495ms
#153	Hy3 preview low	Tencent	5.9	5.5	$0.015	1/3	40.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.015 प्रतिसाद वेळ (सरासरी) 40.4s
#203	Grok 4.1 Fast none	X AI	5.9	3.8	$0.008	1/3	1.06s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 1.06s
#210	LFM2-24B-A2B none	Liquid	5.9	2.2	$0.001	1/3	287ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.001 प्रतिसाद वेळ (सरासरी) 287ms
#33	Kimi K3 max	Moonshot AI	5.9	8.0	$3.112	1/3	490.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $3.112 प्रतिसाद वेळ (सरासरी) 490.1s
#185	Grok 4.1 Fast medium	X AI	5.8	4.7	$0.069	1/3	121.8s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.069 प्रतिसाद वेळ (सरासरी) 121.8s
#47	MiniMax M3 medium	Minimax	5.5	7.6	$0.286	1/3	233.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.286 प्रतिसाद वेळ (सरासरी) 233.1s
#52	Kimi K2.7 Code medium	Moonshot AI	5.5	7.5	$0.751	1/3	213.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.751 प्रतिसाद वेळ (सरासरी) 213.3s
#6	GPT-5.5 low	OpenAI	5.3	9.3	$1.253	1/3	28.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $1.253 प्रतिसाद वेळ (सरासरी) 28.1s
#14	Claude Opus 4.8 medium	Anthropic	5.3	8.8	$1.931	1/3	14.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $1.931 प्रतिसाद वेळ (सरासरी) 14.6s
#30	GPT-5.2 Chat none	OpenAI	5.3	8.0	$0.604	1/3	17.8s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.604 प्रतिसाद वेळ (सरासरी) 17.8s
#34	GPT-5.6 Terra high	OpenAI	5.3	8.0	$1.055	1/3	43.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $1.055 प्रतिसाद वेळ (सरासरी) 43.4s
#39	GPT-5.6 Terra medium	OpenAI	5.3	7.8	$0.676	1/3	23.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.676 प्रतिसाद वेळ (सरासरी) 23.4s
#41	Claude Opus 4.8 low	Anthropic	5.3	7.8	$2.077	1/3	45.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $2.077 प्रतिसाद वेळ (सरासरी) 45.5s

डोमेन-विशिष्ट क्रमवारी

मॉडेल फिल्टर करा

डोमेन-विशिष्ट स्कोअर नुसार शीर्ष मॉडेल्स

डोमेन-विशिष्ट स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स