सूचनांचे पालन मॉडेल क्रमवारी

सूचनांचे पालन मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: मेट्रिक ↑.

दाखवलेली मॉडेल्स

सरासरी सूचनांचे पालन स्कोअर

8.6

सर्वोत्तम मॉडेल

Grok 4.1 Fast 3.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह61 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह19 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2 अयशस्वी होण्याचे कारण API त्रुटी सह1 अयशस्वी होण्याचे कारण वेळ संपला सह1

216/216

क्रमांक	मॉडेल	कंपनी	सूचनांचे पालन स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#177	North Mini Code none	Cohere	6.5	5.1	$0.000	1/2	30.7s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 30.7s
#181	Qwen3.6 Plus Preview medium	Qwen	6.5	4.9	$0.000	1/2	3.40s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 3.40s
#182	GLM 4.7 Flash none	Z.ai	6.5	4.9	$0.016	1/2	888ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.016 प्रतिसाद वेळ (सरासरी) 888ms
#191	Grok 4.1 Fast medium	X AI	6.5	4.7	$0.069	1/2	4.63s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.069 प्रतिसाद वेळ (सरासरी) 4.63s
#195	Mercury 2 none	Inception	6.5	4.6	$0.030	1/2	551ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.030 प्रतिसाद वेळ (सरासरी) 551ms
#206	MiMo-V2-Flash none	Xiaomi	6.5	4.0	$0.025	1/2	857ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.025 प्रतिसाद वेळ (सरासरी) 857ms
#210	Qwen3.5-9B medium	Qwen	6.5	3.8	$0.036	1/2	5.75s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.036 प्रतिसाद वेळ (सरासरी) 5.75s
#211	Laguna Xs.2 none	Poolside	6.5	3.8	$0.004	1/2	439ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.004 प्रतिसाद वेळ (सरासरी) 439ms
#165	GPT-5.6 Luna none	OpenAI	7.1	5.4	$0.142	1/2	1.23s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.142 प्रतिसाद वेळ (सरासरी) 1.23s
#146	Nemotron 3 Super medium	NVIDIA	7.3	5.7	$0.055	1/2	6.97s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.055 प्रतिसाद वेळ (सरासरी) 6.97s
#213	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	7.3	3.4	$0.000	1/2	1.37s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 1.37s
#27	Muse Spark 1.1 low	Meta	7.3	8.3	$0.647	1/2	5.42s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.647 प्रतिसाद वेळ (सरासरी) 5.42s
#149	Gemini 3.1 Flash Lite high	Google	7.3	5.6	$2.044	1/2	23.3s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $2.044 प्रतिसाद वेळ (सरासरी) 23.3s
#173	Mistral Small 4 medium	Mistral	7.3	5.1	$0.096	1/2	1.38s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.096 प्रतिसाद वेळ (सरासरी) 1.38s
#196	MiniMax M2.5 medium	Minimax	7.5	4.6	$0.340	1/2	621ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.340 प्रतिसाद वेळ (सरासरी) 621ms

सूचनांचे पालन क्रमवारी

मॉडेल फिल्टर करा

सूचनांचे पालन स्कोअर नुसार शीर्ष मॉडेल्स

सूचनांचे पालन स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स