सूचनांचे पालन मॉडेल क्रमवारी

सूचनांचे पालन मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↓.

दाखवलेली मॉडेल्स

सरासरी सूचनांचे पालन स्कोअर

8.6

सर्वोत्तम मॉडेल

Gemini 3.6 Flash 9.9

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह61 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह19 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2 अयशस्वी होण्याचे कारण API त्रुटी सह1 अयशस्वी होण्याचे कारण वेळ संपला सह1

216/216

क्रमांक	मॉडेल	कंपनी	सूचनांचे पालन स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#169	Gemini 3.1 Flash Lite Preview high	Google	9.8	5.3	$2.310	2/2	64.0s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $2.310 प्रतिसाद वेळ (सरासरी) 64.0s
#179	DeepSeek V3.2 none	DeepSeek	10.0	5.0	$0.054	2/2	1.52s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.054 प्रतिसाद वेळ (सरासरी) 1.52s
#184	Ling-2.6-flash none	Inclusionai	9.8	4.9	$0.002	2/2	5.52s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.002 प्रतिसाद वेळ (सरासरी) 5.52s
#185	Ring-2.6-1T none	Inclusionai	9.8	4.8	$0.026	2/2	27.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.026 प्रतिसाद वेळ (सरासरी) 27.4s
#187	Grok 4.20 Multi Agent Beta medium	X AI	9.8	4.8	$5.599	2/2	3.52s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $5.599 प्रतिसाद वेळ (सरासरी) 3.52s
#188	KAT-Coder-Air V2.5 none	Kwaipilot	9.9	4.8	$0.067	2/2	1.75s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.067 प्रतिसाद वेळ (सरासरी) 1.75s
#190	Hunter Alpha medium	OpenRouter	9.9	4.7	$0.000	2/2	4.18s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 4.18s
#192	Laguna M.1 medium	Poolside	10.0	4.7	$0.033	2/2	4.30s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.033 प्रतिसाद वेळ (सरासरी) 4.30s
#194	Cobuddy medium	Baidu	9.8	4.7	$0.000	2/2	11.6s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 11.6s
#199	Elephant Alpha none	Openrouter	9.8	4.3	$0.000	2/2	1.03s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 1.03s
#201	Elephant Alpha medium	Openrouter	9.8	4.3	$0.000	2/2	987ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 987ms
#204	Laguna Xs.2 medium	Poolside	10.0	4.1	$0.015	2/2	1.68s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.015 प्रतिसाद वेळ (सरासरी) 1.68s
#208	Grok Build 0.1 none	X AI	9.8	4.0	$0.547	2/2	7.36s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.547 प्रतिसाद वेळ (सरासरी) 7.36s
#212	gpt-oss-120b none	OpenAI	9.8	3.7	$0.010	2/2	5.06s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.010 प्रतिसाद वेळ (सरासरी) 5.06s
#215	Step 3.5 Flash none	Stepfun	5.0	2.3	$0.020	1/1	9.30s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.020 प्रतिसाद वेळ (सरासरी) 9.30s

सूचनांचे पालन क्रमवारी

मॉडेल फिल्टर करा

सूचनांचे पालन स्कोअर नुसार शीर्ष मॉडेल्स

सूचनांचे पालन स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स