सूचनांचे पालन मॉडेल क्रमवारी

सूचनांचे पालन मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: मेट्रिक ↑.

दाखवलेली मॉडेल्स

सरासरी सूचनांचे पालन स्कोअर

8.6

सर्वोत्तम मॉडेल

Grok 4.1 Fast 3.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह61 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह19 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2 अयशस्वी होण्याचे कारण API त्रुटी सह1 अयशस्वी होण्याचे कारण वेळ संपला सह1

216/216

क्रमांक	मॉडेल	कंपनी	सूचनांचे पालन स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#58	GPT-5.3 Chat none	OpenAI	9.8	7.5	$0.571	2/2	3.51s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.571 प्रतिसाद वेळ (सरासरी) 3.51s
#60	GPT-5.4 Mini medium	OpenAI	9.8	7.5	$0.756	2/2	2.13s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.756 प्रतिसाद वेळ (सरासरी) 2.13s
#71	Step 3.7 Flash low	Stepfun	9.8	7.3	$0.454	2/2	1.58s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.454 प्रतिसाद वेळ (सरासरी) 1.58s
#79	Grok 4.20 medium	X AI	9.8	7.1	$0.777	2/2	4.26s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.777 प्रतिसाद वेळ (सरासरी) 4.26s
#90	Step 3.7 Flash high	Stepfun	9.8	6.9	$1.207	2/2	1.52s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.207 प्रतिसाद वेळ (सरासरी) 1.52s
#95	Gemini 3.5 Flash-Lite low	Google	9.8	6.7	$0.145	2/2	869ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.145 प्रतिसाद वेळ (सरासरी) 869ms
#101	GLM 5.2 none	Z.ai	9.8	6.6	$0.128	2/2	3.84s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.128 प्रतिसाद वेळ (सरासरी) 3.84s
#103	Qwen3.6 Max Preview none	Qwen	9.8	6.6	$0.231	2/2	1.40s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.231 प्रतिसाद वेळ (सरासरी) 1.40s
#104	Gemini 3.5 Flash-Lite medium	Google	9.8	6.5	$0.369	2/2	1.59s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.369 प्रतिसाद वेळ (सरासरी) 1.59s
#108	Laguna XS 2.1 medium	Poolside	9.8	6.5	$0.068	2/2	2.57s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.068 प्रतिसाद वेळ (सरासरी) 2.57s
#114	Ring-2.6-1T medium	Inclusionai	9.8	6.3	$0.103	2/2	11.8s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.103 प्रतिसाद वेळ (सरासरी) 11.8s
#129	Inkling low	Thinkingmachines	9.8	6.1	$0.187	2/2	1.81s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.187 प्रतिसाद वेळ (सरासरी) 1.81s
#134	GPT-5 Nano medium	OpenAI	9.8	6.1	$0.114	2/2	15.6s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.114 प्रतिसाद वेळ (सरासरी) 15.6s
#137	Grok 4.20 Beta medium	X AI	9.8	6.0	$0.750	2/2	4.89s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.750 प्रतिसाद वेळ (सरासरी) 4.89s
#139	Gemini 3 PRO Preview medium	Google	9.8	6.0	$0.385	2/2	3.26s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.385 प्रतिसाद वेळ (सरासरी) 3.26s

सूचनांचे पालन क्रमवारी

मॉडेल फिल्टर करा

सूचनांचे पालन स्कोअर नुसार शीर्ष मॉडेल्स

सूचनांचे पालन स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स