सूचनांचे पालन मॉडेल क्रमवारी

सूचनांचे पालन मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↑.

दाखवलेली मॉडेल्स

सरासरी सूचनांचे पालन स्कोअर

8.5

सर्वोत्तम मॉडेल

Laguna XS 2.1 3.8

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह61 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह18 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2 अयशस्वी होण्याचे कारण API त्रुटी सह1 अयशस्वी होण्याचे कारण वेळ संपला सह1

210/210

क्रमांक	मॉडेल	कंपनी	सूचनांचे पालन स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#160	Laguna XS 2.1 none	Poolside	3.8	5.3	$0.008	0/2	364ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 364ms
#172	MiniMax M2.7 medium	Minimax	3.8	5.0	$0.163	0/2	12.8s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.163 प्रतिसाद वेळ (सरासरी) 12.8s
#183	Trinity Large Preview none	Arcee AI	3.5	4.8	$0.008	0/2	822ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 822ms
#201	Granite 4.1 8B none	IBM Granite	3.6	4.0	$0.007	0/2	344ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.007 प्रतिसाद वेळ (सरासरी) 344ms
#203	Grok 4.1 Fast none	X AI	3.0	3.8	$0.008	0/2	685ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 685ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	4.8	3.2	$0.000	0/2	541ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 541ms
#16	Muse Spark 1.1 medium	Meta	6.5	8.6	$1.357	1/2	6.31s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $1.357 प्रतिसाद वेळ (सरासरी) 6.31s
#24	Muse Spark 1.1 low	Meta	7.3	8.3	$0.647	1/2	5.42s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.647 प्रतिसाद वेळ (सरासरी) 5.42s
#27	Muse Spark 1.1 high	Meta	6.4	8.1	$1.694	1/2	7.81s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $1.694 प्रतिसाद वेळ (सरासरी) 7.81s
#46	DeepSeek V4 Pro high	DeepSeek	7.8	7.7	$0.200	1/2	8.73s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.200 प्रतिसाद वेळ (सरासरी) 8.73s
#60	LongCat 2.0 medium	Meituan	6.5	7.4	$0.478	1/2	7.38s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.478 प्रतिसाद वेळ (सरासरी) 7.38s
#63	Claude Sonnet 4.6 none	Anthropic	6.5	7.3	$0.661	1/2	1.96s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.661 प्रतिसाद वेळ (सरासरी) 1.96s
#71	Qwen3.7 Plus none	Qwen	6.3	7.2	$0.106	1/2	929ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.106 प्रतिसाद वेळ (सरासरी) 929ms
#74	GLM 5.1 medium	Z.ai	6.4	7.1	$0.535	1/2	7.47s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.535 प्रतिसाद वेळ (सरासरी) 7.47s
#82	DeepSeek V4 Pro none	DeepSeek	6.3	6.9	$0.096	1/2	4.12s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.096 प्रतिसाद वेळ (सरासरी) 4.12s

1 2 14

→

सूचनांचे पालन क्रमवारी

मॉडेल फिल्टर करा

सूचनांचे पालन स्कोअर नुसार शीर्ष मॉडेल्स

सूचनांचे पालन स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स