डोमेन-विशिष्ट मॉडेल क्रमवारी

डोमेन-विशिष्ट मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा.

दाखवलेली मॉडेल्स

सरासरी डोमेन-विशिष्ट स्कोअर

4.7

सर्वोत्तम मॉडेल

Gemini 3.6 Flash 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह421 अयशस्वी होण्याचे कारण वेळ संपला सह43 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह17 अयशस्वी होण्याचे कारण उत्तर नाही सह8 अयशस्वी होण्याचे कारण API त्रुटी सह7 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह1

216/216

क्रमांक	मॉडेल	कंपनी	डोमेन-विशिष्ट स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#13	GPT-5.5 medium	OpenAI	5.3	9.0	$4.137	1/3	164.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $4.137 प्रतिसाद वेळ (सरासरी) 164.1s
#20	Claude Fable 5 medium	Anthropic	5.3	8.6	$3.478	1/3	53.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $3.478 प्रतिसाद वेळ (सरासरी) 53.4s
#21	GPT-5.4 medium	OpenAI	5.3	8.5	$1.533	1/3	74.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $1.533 प्रतिसाद वेळ (सरासरी) 74.3s
#31	Gemini 3.5 Flash-Lite high	Google	5.3	8.1	$0.584	1/3	19.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.584 प्रतिसाद वेळ (सरासरी) 19.5s
#36	Inkling medium	Thinkingmachines	5.3	8.0	$0.391	1/3	35.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.391 प्रतिसाद वेळ (सरासरी) 35.6s
#59	GPT-5.6 Terra low	OpenAI	5.3	7.5	$0.519	1/3	8.34s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.519 प्रतिसाद वेळ (सरासरी) 8.34s
#65	Gemini 3 Flash Preview low	Google	5.3	7.4	$0.177	1/3	8.05s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.177 प्रतिसाद वेळ (सरासरी) 8.05s
#70	Claude Opus 4.8 none	Anthropic	5.3	7.3	$1.166	1/3	1.70s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $1.166 प्रतिसाद वेळ (सरासरी) 1.70s
#71	Step 3.7 Flash low	Stepfun	5.3	7.3	$0.454	1/3	43.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.454 प्रतिसाद वेळ (सरासरी) 43.3s
#72	Kimi K2.6 medium	Moonshot AI	5.3	7.2	$1.036	1/3	202.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $1.036 प्रतिसाद वेळ (सरासरी) 202.4s
#77	Grok 4.3 medium	X AI	5.3	7.1	$0.779	1/3	181.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.779 प्रतिसाद वेळ (सरासरी) 181.7s
#94	Qwen3.6 35B A3B medium	Qwen	5.3	6.7	$0.746	1/3	22.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.746 प्रतिसाद वेळ (सरासरी) 22.5s
#98	GLM 5V Turbo medium	Z.ai	5.3	6.7	$0.457	1/3	38.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.457 प्रतिसाद वेळ (सरासरी) 38.1s
#118	Claude Sonnet 5 none	Anthropic	5.3	6.3	$0.548	1/3	3.28s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.548 प्रतिसाद वेळ (सरासरी) 3.28s
#120	Qwen3.5-Flash medium	Qwen	5.3	6.2	$0.139	1/3	146.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.139 प्रतिसाद वेळ (सरासरी) 146.5s

डोमेन-विशिष्ट क्रमवारी

मॉडेल फिल्टर करा

डोमेन-विशिष्ट स्कोअर नुसार शीर्ष मॉडेल्स

डोमेन-विशिष्ट स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स