सूचनांचे पालन मॉडेल क्रमवारी

सूचनांचे पालन मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↑.

दाखवलेली मॉडेल्स

सरासरी सूचनांचे पालन स्कोअर

8.6

सर्वोत्तम मॉडेल

Granite 4.1 8B 3.6

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह61 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह19 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2 अयशस्वी होण्याचे कारण API त्रुटी सह1 अयशस्वी होण्याचे कारण वेळ संपला सह1

216/216

क्रमांक	मॉडेल	कंपनी	सूचनांचे पालन स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#35	GLM 5.2 high	Z.ai	10.0	8.0	$0.817	2/2	4.26s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.817 प्रतिसाद वेळ (सरासरी) 4.26s
#79	Grok 4.20 medium	X AI	9.8	7.1	$0.777	2/2	4.26s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.777 प्रतिसाद वेळ (सरासरी) 4.26s
#119	MiMo-V2-Flash medium	Xiaomi	10.0	6.3	$0.043	2/2	4.28s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.043 प्रतिसाद वेळ (सरासरी) 4.28s
#192	Laguna M.1 medium	Poolside	10.0	4.7	$0.033	2/2	4.30s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.033 प्रतिसाद वेळ (सरासरी) 4.30s
#191	Grok 4.1 Fast medium	X AI	6.5	4.7	$0.069	1/2	4.63s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.069 प्रतिसाद वेळ (सरासरी) 4.63s
#136	Step 3.5 Flash medium	Stepfun	8.3	6.0	$0.108	1/2	4.78s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.108 प्रतिसाद वेळ (सरासरी) 4.78s
#137	Grok 4.20 Beta medium	X AI	9.8	6.0	$0.750	2/2	4.89s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.750 प्रतिसाद वेळ (सरासरी) 4.89s
#140	Mimo V2 Omni medium	Xiaomi	8.3	5.9	$0.683	1/2	4.99s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.683 प्रतिसाद वेळ (सरासरी) 4.99s
#212	gpt-oss-120b none	OpenAI	9.8	3.7	$0.010	2/2	5.06s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.010 प्रतिसाद वेळ (सरासरी) 5.06s
#168	Ling-2.6-1T none	Inclusionai	6.4	5.3	$0.016	1/2	5.36s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.016 प्रतिसाद वेळ (सरासरी) 5.36s
#53	GLM 5 Turbo medium	Z.ai	10.0	7.6	$0.323	2/2	5.38s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.323 प्रतिसाद वेळ (सरासरी) 5.38s
#56	Kimi K2.7 Code medium	Moonshot AI	9.9	7.5	$0.740	2/2	5.39s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.740 प्रतिसाद वेळ (सरासरी) 5.39s
#27	Muse Spark 1.1 low	Meta	7.3	8.3	$0.647	1/2	5.42s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.647 प्रतिसाद वेळ (सरासरी) 5.42s
#34	GPT-5.2 Chat none	OpenAI	9.8	8.0	$0.604	2/2	5.51s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.604 प्रतिसाद वेळ (सरासरी) 5.51s
#184	Ling-2.6-flash none	Inclusionai	9.8	4.9	$0.002	2/2	5.52s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.002 प्रतिसाद वेळ (सरासरी) 5.52s

←

1 9 10 11 15

→

सूचनांचे पालन क्रमवारी

मॉडेल फिल्टर करा

सूचनांचे पालन स्कोअर नुसार शीर्ष मॉडेल्स

सूचनांचे पालन स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स