सूचनांचे पालन मॉडेल क्रमवारी

सूचनांचे पालन मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↑.

दाखवलेली मॉडेल्स

सरासरी सूचनांचे पालन स्कोअर

8.6

सर्वोत्तम मॉडेल

Laguna XS 2.1 3.8

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह61 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह19 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2 अयशस्वी होण्याचे कारण API त्रुटी सह1 अयशस्वी होण्याचे कारण वेळ संपला सह1

216/216

क्रमांक	मॉडेल	कंपनी	सूचनांचे पालन स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#158	Qwen3.6 27B none	Qwen	6.2	5.5	$0.087	1/2	1.92s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.087 प्रतिसाद वेळ (सरासरी) 1.92s
#160	MiMo-V2.5-Pro none	Xiaomi	6.4	5.5	$0.068	1/2	1.03s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.068 प्रतिसाद वेळ (सरासरी) 1.03s
#161	Kimi K2.5 none	Moonshot AI	6.5	5.5	$0.127	1/2	2.67s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.127 प्रतिसाद वेळ (सरासरी) 2.67s
#162	Gemma 4 26B A4B none	Google	6.3	5.5	$0.015	1/2	690ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.015 प्रतिसाद वेळ (सरासरी) 690ms
#163	Mimo V2 Omni none	Xiaomi	6.5	5.5	$0.021	1/2	4.26s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.021 प्रतिसाद वेळ (सरासरी) 4.26s
#165	GPT-5.6 Luna none	OpenAI	7.1	5.4	$0.142	1/2	1.23s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.142 प्रतिसाद वेळ (सरासरी) 1.23s
#167	Qwen3.6 35B A3B none	Qwen	6.2	5.3	$0.061	1/2	1.86s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.061 प्रतिसाद वेळ (सरासरी) 1.86s
#168	Ling-2.6-1T none	Inclusionai	6.4	5.3	$0.016	1/2	5.36s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.016 प्रतिसाद वेळ (सरासरी) 5.36s
#170	Inkling none	Thinkingmachines	6.3	5.2	$0.147	1/2	1.72s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.147 प्रतिसाद वेळ (सरासरी) 1.72s
#171	Mistral Small 4 none	Mistral	6.5	5.1	$0.022	1/2	380ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.022 प्रतिसाद वेळ (सरासरी) 380ms
#172	Qwen3 Coder Next none	Qwen	6.3	5.1	$0.025	1/2	7.78s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.025 प्रतिसाद वेळ (सरासरी) 7.78s
#173	Mistral Small 4 medium	Mistral	7.3	5.1	$0.096	1/2	1.38s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.096 प्रतिसाद वेळ (सरासरी) 1.38s
#174	MiMo-V2.5 none	Xiaomi	6.5	5.1	$0.025	1/2	751ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.025 प्रतिसाद वेळ (सरासरी) 751ms
#175	Qwen3.5-9B none	Qwen	6.5	5.1	$0.021	1/2	514ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.021 प्रतिसाद वेळ (सरासरी) 514ms
#176	GLM 5 Turbo none	Z.ai	6.5	5.1	$0.047	1/2	2.13s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.047 प्रतिसाद वेळ (सरासरी) 2.13s

सूचनांचे पालन क्रमवारी

मॉडेल फिल्टर करा

सूचनांचे पालन स्कोअर नुसार शीर्ष मॉडेल्स

सूचनांचे पालन स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स