सूचनांचे पालन मॉडेल क्रमवारी

सूचनांचे पालन मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↑.

दाखवलेली मॉडेल्स

सरासरी सूचनांचे पालन स्कोअर

8.6

सर्वोत्तम मॉडेल

Laguna XS 2.1 3.8

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह61 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह19 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2 अयशस्वी होण्याचे कारण API त्रुटी सह1 अयशस्वी होण्याचे कारण वेळ संपला सह1

216/216

क्रमांक	मॉडेल	कंपनी	सूचनांचे पालन स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#177	North Mini Code none	Cohere	6.5	5.1	$0.000	1/2	30.7s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 30.7s
#180	GPT-4o-mini none	OpenAI	6.3	5.0	$0.010	1/2	1.11s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.010 प्रतिसाद वेळ (सरासरी) 1.11s
#181	Qwen3.6 Plus Preview medium	Qwen	6.5	4.9	$0.000	1/2	3.40s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 3.40s
#182	GLM 4.7 Flash none	Z.ai	6.5	4.9	$0.016	1/2	888ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.016 प्रतिसाद वेळ (सरासरी) 888ms
#183	Nemotron 3 Super none	NVIDIA	6.3	4.9	$0.008	1/2	804ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 804ms
#186	GPT-5.4 Nano none	OpenAI	6.3	4.8	$0.041	1/2	784ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.041 प्रतिसाद वेळ (सरासरी) 784ms
#191	Grok 4.1 Fast medium	X AI	6.5	4.7	$0.069	1/2	4.63s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.069 प्रतिसाद वेळ (सरासरी) 4.63s
#193	Qwen3 Coder Next medium	Qwen	6.3	4.7	$0.032	1/2	7.49s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.032 प्रतिसाद वेळ (सरासरी) 7.49s
#195	Mercury 2 none	Inception	6.5	4.6	$0.030	1/2	551ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.030 प्रतिसाद वेळ (सरासरी) 551ms
#196	MiniMax M2.5 medium	Minimax	7.5	4.6	$0.340	1/2	621ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.340 प्रतिसाद वेळ (सरासरी) 621ms
#197	Grok 4.20 Beta none	X AI	6.3	4.4	$0.087	1/2	649ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.087 प्रतिसाद वेळ (सरासरी) 649ms
#198	Laguna M.1 none	Poolside	6.3	4.4	$0.009	1/2	683ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.009 प्रतिसाद वेळ (सरासरी) 683ms
#200	GLM 4.7 Flash medium	Z.ai	6.2	4.3	$0.166	1/2	2.97s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.166 प्रतिसाद वेळ (सरासरी) 2.97s
#202	Hunter Alpha none	OpenRouter	6.4	4.2	$0.000	1/2	2.82s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 2.82s
#203	Grok 4.20 none	X AI	6.3	4.1	$0.057	1/2	445ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.057 प्रतिसाद वेळ (सरासरी) 445ms

सूचनांचे पालन क्रमवारी

मॉडेल फिल्टर करा

सूचनांचे पालन स्कोअर नुसार शीर्ष मॉडेल्स

सूचनांचे पालन स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स