डोमेन-विशिष्ट मॉडेल क्रमवारी

डोमेन-विशिष्ट मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↓.

दाखवलेली मॉडेल्स

सरासरी डोमेन-विशिष्ट स्कोअर

4.7

सर्वोत्तम मॉडेल

Gemini 3.6 Flash 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह421 अयशस्वी होण्याचे कारण वेळ संपला सह43 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह17 अयशस्वी होण्याचे कारण उत्तर नाही सह8 अयशस्वी होण्याचे कारण API त्रुटी सह7 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह1

216/216

क्रमांक	मॉडेल	कंपनी	डोमेन-विशिष्ट स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#43	GPT-5.6 Terra medium	OpenAI	5.3	7.8	$0.676	1/3	23.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.676 प्रतिसाद वेळ (सरासरी) 23.4s
#45	Claude Opus 4.8 low	Anthropic	5.3	7.8	$2.077	1/3	45.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $2.077 प्रतिसाद वेळ (सरासरी) 45.5s
#51	MiniMax M3 medium	Minimax	5.5	7.6	$0.286	1/3	233.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.286 प्रतिसाद वेळ (सरासरी) 233.1s
#52	Grok Build 0.1 medium	X AI	5.3	7.6	$1.097	1/3	158.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $1.097 प्रतिसाद वेळ (सरासरी) 158.0s
#54	GPT-5.6 Luna medium	OpenAI	5.3	7.6	$0.352	1/3	17.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.352 प्रतिसाद वेळ (सरासरी) 17.4s
#56	Kimi K2.7 Code medium	Moonshot AI	5.5	7.5	$0.740	1/3	213.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.740 प्रतिसाद वेळ (सरासरी) 213.3s
#57	GPT-5.4 Nano medium	OpenAI	5.9	7.5	$0.138	1/3	38.2s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.138 प्रतिसाद वेळ (सरासरी) 38.2s
#59	GPT-5.6 Terra low	OpenAI	5.3	7.5	$0.519	1/3	8.34s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.519 प्रतिसाद वेळ (सरासरी) 8.34s
#61	Qwen3.5 Plus 2026-02-15 medium	Qwen	5.3	7.5	$0.437	1/3	17.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.437 प्रतिसाद वेळ (सरासरी) 17.5s
#62	Qwen3.5-27B medium	Qwen	5.3	7.4	$1.627	1/3	79.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $1.627 प्रतिसाद वेळ (सरासरी) 79.5s
#65	Gemini 3 Flash Preview low	Google	5.3	7.4	$0.177	1/3	8.05s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.177 प्रतिसाद वेळ (सरासरी) 8.05s
#70	Claude Opus 4.8 none	Anthropic	5.3	7.3	$1.166	1/3	1.70s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $1.166 प्रतिसाद वेळ (सरासरी) 1.70s
#71	Step 3.7 Flash low	Stepfun	5.3	7.3	$0.454	1/3	43.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.454 प्रतिसाद वेळ (सरासरी) 43.3s
#72	Kimi K2.6 medium	Moonshot AI	5.3	7.2	$1.036	1/3	202.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $1.036 प्रतिसाद वेळ (सरासरी) 202.4s
#77	Grok 4.3 medium	X AI	5.3	7.1	$0.779	1/3	181.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.779 प्रतिसाद वेळ (सरासरी) 181.7s

डोमेन-विशिष्ट क्रमवारी

मॉडेल फिल्टर करा

डोमेन-विशिष्ट स्कोअर नुसार शीर्ष मॉडेल्स

डोमेन-विशिष्ट स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स