सूचनांचे पालन मॉडेल क्रमवारी

सूचनांचे पालन मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↑.

दाखवलेली मॉडेल्स

सरासरी सूचनांचे पालन स्कोअर

8.6

सर्वोत्तम मॉडेल

Laguna XS 2.1 3.8

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह61 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह19 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2 अयशस्वी होण्याचे कारण API त्रुटी सह1 अयशस्वी होण्याचे कारण वेळ संपला सह1

216/216

क्रमांक	मॉडेल	कंपनी	सूचनांचे पालन स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#26	Claude Sonnet 5 medium	Anthropic	9.9	8.3	$0.922	2/2	3.10s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.922 प्रतिसाद वेळ (सरासरी) 3.10s
#28	Gemini 2.5 Flash medium	Google	9.8	8.2	$0.643	2/2	2.62s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.643 प्रतिसाद वेळ (सरासरी) 2.62s
#29	GPT-5 Mini medium	OpenAI	10.0	8.1	$0.237	2/2	11.6s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.237 प्रतिसाद वेळ (सरासरी) 11.6s
#32	Inkling high	Thinkingmachines	9.8	8.0	$1.006	2/2	7.00s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.006 प्रतिसाद वेळ (सरासरी) 7.00s
#33	Step 3.7 Flash medium	Stepfun	9.8	8.0	$0.515	2/2	1.83s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.515 प्रतिसाद वेळ (सरासरी) 1.83s
#34	GPT-5.2 Chat none	OpenAI	9.8	8.0	$0.604	2/2	5.51s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.604 प्रतिसाद वेळ (सरासरी) 5.51s
#35	GLM 5.2 high	Z.ai	10.0	8.0	$0.817	2/2	4.26s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.817 प्रतिसाद वेळ (सरासरी) 4.26s
#36	Inkling medium	Thinkingmachines	9.8	8.0	$0.391	2/2	6.17s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.391 प्रतिसाद वेळ (सरासरी) 6.17s
#37	Kimi K3 max	Moonshot AI	10.0	8.0	$3.112	2/2	7.66s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $3.112 प्रतिसाद वेळ (सरासरी) 7.66s
#38	GPT-5.6 Terra high	OpenAI	10.0	8.0	$1.055	2/2	2.14s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.055 प्रतिसाद वेळ (सरासरी) 2.14s
#39	Seed-2.0-Lite medium	Bytedance Seed	10.0	7.9	$0.234	2/2	7.26s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.234 प्रतिसाद वेळ (सरासरी) 7.26s
#40	Qwen3.7 Plus medium	Qwen	10.0	7.9	$0.267	2/2	16.1s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.267 प्रतिसाद वेळ (सरासरी) 16.1s
#41	Qwen3.6 Plus medium	Qwen	10.0	7.8	$0.405	2/2	7.54s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.405 प्रतिसाद वेळ (सरासरी) 7.54s
#42	GLM 5.2 medium	Z.ai	9.9	7.8	$0.187	2/2	7.90s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.187 प्रतिसाद वेळ (सरासरी) 7.90s
#43	GPT-5.6 Terra medium	OpenAI	10.0	7.8	$0.676	2/2	1.43s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.676 प्रतिसाद वेळ (सरासरी) 1.43s

सूचनांचे पालन क्रमवारी

मॉडेल फिल्टर करा

सूचनांचे पालन स्कोअर नुसार शीर्ष मॉडेल्स

सूचनांचे पालन स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स