सूचनांचे पालन मॉडेल क्रमवारी

सूचनांचे पालन मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↑.

दाखवलेली मॉडेल्स

सरासरी सूचनांचे पालन स्कोअर

8.5

सर्वोत्तम मॉडेल

Granite 4.1 8B 3.6

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह61 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह18 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2 अयशस्वी होण्याचे कारण API त्रुटी सह1 अयशस्वी होण्याचे कारण वेळ संपला सह1

210/210

क्रमांक	मॉडेल	कंपनी	सूचनांचे पालन स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#201	Granite 4.1 8B none	IBM Granite	3.6	4.0	$0.007	0/2	344ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.007 प्रतिसाद वेळ (सरासरी) 344ms
#160	Laguna XS 2.1 none	Poolside	3.8	5.3	$0.008	0/2	364ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 364ms
#165	Mistral Small 4 none	Mistral	6.5	5.1	$0.022	1/2	380ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.022 प्रतिसाद वेळ (सरासरी) 380ms
#205	Laguna Xs.2 none	Poolside	6.5	3.8	$0.004	1/2	439ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.004 प्रतिसाद वेळ (सरासरी) 439ms
#197	Grok 4.20 none	X AI	6.3	4.1	$0.057	1/2	445ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.057 प्रतिसाद वेळ (सरासरी) 445ms
#142	Qwen3.5-122B-A10B none	Qwen	6.3	5.7	$0.247	1/2	513ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.247 प्रतिसाद वेळ (सरासरी) 513ms
#169	Qwen3.5-9B none	Qwen	6.5	5.1	$0.021	1/2	514ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.021 प्रतिसाद वेळ (सरासरी) 514ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	4.8	3.2	$0.000	0/2	541ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 541ms
#189	Mercury 2 none	Inception	6.5	4.6	$0.030	1/2	551ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.030 प्रतिसाद वेळ (सरासरी) 551ms
#118	Gemini 2.5 Flash none	Google	10.0	6.2	$0.017	2/2	590ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.017 प्रतिसाद वेळ (सरासरी) 590ms
#190	MiniMax M2.5 medium	Minimax	7.5	4.6	$0.340	1/2	621ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.340 प्रतिसाद वेळ (सरासरी) 621ms
#191	Grok 4.20 Beta none	X AI	6.3	4.4	$0.087	1/2	649ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.087 प्रतिसाद वेळ (सरासरी) 649ms
#192	Laguna M.1 none	Poolside	6.3	4.4	$0.009	1/2	683ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.009 प्रतिसाद वेळ (सरासरी) 683ms
#203	Grok 4.1 Fast none	X AI	3.0	3.8	$0.008	0/2	685ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 685ms
#156	Gemma 4 26B A4B none	Google	6.3	5.5	$0.015	1/2	690ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.015 प्रतिसाद वेळ (सरासरी) 690ms

1 2 14

→

सूचनांचे पालन क्रमवारी

मॉडेल फिल्टर करा

सूचनांचे पालन स्कोअर नुसार शीर्ष मॉडेल्स

सूचनांचे पालन स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स