डोमेन-विशिष्ट मॉडेल क्रमवारी

डोमेन-विशिष्ट मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↑.

दाखवलेली मॉडेल्स

सरासरी डोमेन-विशिष्ट स्कोअर

4.7

सर्वोत्तम मॉडेल

Claude Sonnet 4.6 2.9

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह412 अयशस्वी होण्याचे कारण वेळ संपला सह43 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह17 अयशस्वी होण्याचे कारण उत्तर नाही सह8 अयशस्वी होण्याचे कारण API त्रुटी सह7 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह1

210/210

क्रमांक	मॉडेल	कंपनी	डोमेन-विशिष्ट स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#40	Claude Sonnet 4.6 medium	Anthropic	2.9	7.8	$2.057	0/3	0ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $2.057 प्रतिसाद वेळ (सरासरी) 0ms
#42	GLM 5 medium	Z.ai	3.5	7.7	$0.307	0/3	0ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.307 प्रतिसाद वेळ (सरासरी) 0ms
#80	Seed-2.0-Mini medium	Bytedance Seed	3.0	7.0	$0.101	0/3	0ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.101 प्रतिसाद वेळ (सरासरी) 0ms
#210	LFM2-24B-A2B none	Liquid	5.9	2.2	$0.001	1/3	287ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.001 प्रतिसाद वेळ (सरासरी) 287ms
#201	Granite 4.1 8B none	IBM Granite	3.0	4.0	$0.007	0/3	357ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.007 प्रतिसाद वेळ (सरासरी) 357ms
#160	Laguna XS 2.1 none	Poolside	5.3	5.3	$0.008	1/3	364ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 364ms
#165	Mistral Small 4 none	Mistral	5.3	5.1	$0.022	1/3	367ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.022 प्रतिसाद वेळ (सरासरी) 367ms
#205	Laguna Xs.2 none	Poolside	5.3	3.8	$0.004	1/3	371ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.004 प्रतिसाद वेळ (सरासरी) 371ms
#169	Qwen3.5-9B none	Qwen	3.0	5.1	$0.021	0/3	464ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.021 प्रतिसाद वेळ (सरासरी) 464ms
#142	Qwen3.5-122B-A10B none	Qwen	5.3	5.7	$0.247	1/3	465ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.247 प्रतिसाद वेळ (सरासरी) 465ms
#127	Qwen3.5-35B-A3B none	Qwen	7.7	6.1	$0.106	2/3	485ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.106 प्रतिसाद वेळ (सरासरी) 485ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3.6	3.2	$0.000	0/3	489ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 489ms
#118	Gemini 2.5 Flash none	Google	5.9	6.2	$0.017	1/3	495ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.017 प्रतिसाद वेळ (सरासरी) 495ms
#189	Mercury 2 none	Inception	5.3	4.6	$0.030	1/3	534ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.030 प्रतिसाद वेळ (सरासरी) 534ms
#103	Qwen3.5-27B none	Qwen	3.0	6.5	$0.090	0/3	540ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.090 प्रतिसाद वेळ (सरासरी) 540ms

1 2 14

→

डोमेन-विशिष्ट क्रमवारी

मॉडेल फिल्टर करा

डोमेन-विशिष्ट स्कोअर नुसार शीर्ष मॉडेल्स

डोमेन-विशिष्ट स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स