सूचनांचे पालन मॉडेल क्रमवारी

सूचनांचे पालन मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: मेट्रिक ↑.

दाखवलेली मॉडेल्स

सरासरी सूचनांचे पालन स्कोअर

8.6

सर्वोत्तम मॉडेल

Grok 4.1 Fast 3.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह61 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह19 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2 अयशस्वी होण्याचे कारण API त्रुटी सह1 अयशस्वी होण्याचे कारण वेळ संपला सह1

216/216

क्रमांक	मॉडेल	कंपनी	सूचनांचे पालन स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#50	DeepSeek V4 Pro high	DeepSeek	7.8	7.7	$0.200	1/2	8.73s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.200 प्रतिसाद वेळ (सरासरी) 8.73s
#136	Step 3.5 Flash medium	Stepfun	8.3	6.0	$0.108	1/2	4.78s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.108 प्रतिसाद वेळ (सरासरी) 4.78s
#140	Mimo V2 Omni medium	Xiaomi	8.3	5.9	$0.683	1/2	4.99s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.683 प्रतिसाद वेळ (सरासरी) 4.99s
#31	Gemini 3.5 Flash-Lite high	Google	8.5	8.1	$0.584	1/2	1.87s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.584 प्रतिसाद वेळ (सरासरी) 1.87s
#123	GPT-5.6 Luna low	OpenAI	8.5	6.2	$0.249	1/2	2.04s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.249 प्रतिसाद वेळ (सरासरी) 2.04s
#87	GPT-5.6 Sol none	OpenAI	8.5	6.9	$0.524	1/2	1.33s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.524 प्रतिसाद वेळ (सरासरी) 1.33s
#138	GPT-5.6 Terra none	OpenAI	8.5	6.0	$0.349	1/2	1.15s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.349 प्रतिसाद वेळ (सरासरी) 1.15s
#15	Grok 4.5 high	X AI	9.8	8.9	$1.707	2/2	6.23s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.707 प्रतिसाद वेळ (सरासरी) 6.23s
#23	Grok 4.5 low	X AI	9.8	8.4	$0.935	2/2	2.80s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.935 प्रतिसाद वेळ (सरासरी) 2.80s
#25	Grok 4.5 medium	X AI	9.8	8.3	$1.928	2/2	6.06s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.928 प्रतिसाद वेळ (सरासरी) 6.06s
#28	Gemini 2.5 Flash medium	Google	9.8	8.2	$0.643	2/2	2.62s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.643 प्रतिसाद वेळ (सरासरी) 2.62s
#33	Step 3.7 Flash medium	Stepfun	9.8	8.0	$0.515	2/2	1.83s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.515 प्रतिसाद वेळ (सरासरी) 1.83s
#34	GPT-5.2 Chat none	OpenAI	9.8	8.0	$0.604	2/2	5.51s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.604 प्रतिसाद वेळ (सरासरी) 5.51s
#36	Inkling medium	Thinkingmachines	9.8	8.0	$0.391	2/2	6.17s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.391 प्रतिसाद वेळ (सरासरी) 6.17s
#55	Nemotron 3 Ultra medium	NVIDIA	9.8	7.5	$0.774	2/2	6.35s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.774 प्रतिसाद वेळ (सरासरी) 6.35s

सूचनांचे पालन क्रमवारी

मॉडेल फिल्टर करा

सूचनांचे पालन स्कोअर नुसार शीर्ष मॉडेल्स

सूचनांचे पालन स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स