सूचनांचे पालन मॉडेल क्रमवारी

सूचनांचे पालन मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↑.

दाखवलेली मॉडेल्स

सरासरी सूचनांचे पालन स्कोअर

8.6

सर्वोत्तम मॉडेल

Granite 4.1 8B 3.6

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह61 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह19 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2 अयशस्वी होण्याचे कारण API त्रुटी सह1 अयशस्वी होण्याचे कारण वेळ संपला सह1

216/216

क्रमांक	मॉडेल	कंपनी	सूचनांचे पालन स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#14	Gemini 3.5 Flash low	Google	9.9	8.9	$0.433	2/2	1.86s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.433 प्रतिसाद वेळ (सरासरी) 1.86s
#31	Gemini 3.5 Flash-Lite high	Google	8.5	8.1	$0.584	1/2	1.87s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.584 प्रतिसाद वेळ (सरासरी) 1.87s
#57	GPT-5.4 Nano medium	OpenAI	9.8	7.5	$0.138	2/2	1.88s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.138 प्रतिसाद वेळ (सरासरी) 1.88s
#68	Gemini 3.1 Flash Lite Preview medium	Google	10.0	7.3	$0.115	2/2	1.91s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.115 प्रतिसाद वेळ (सरासरी) 1.91s
#158	Qwen3.6 27B none	Qwen	6.2	5.5	$0.087	1/2	1.92s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.087 प्रतिसाद वेळ (सरासरी) 1.92s
#67	Claude Sonnet 4.6 none	Anthropic	6.5	7.3	$0.661	1/2	1.96s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.661 प्रतिसाद वेळ (सरासरी) 1.96s
#151	GLM 5V Turbo none	Z.ai	6.5	5.6	$0.052	1/2	1.97s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.052 प्रतिसाद वेळ (सरासरी) 1.97s
#157	GLM 5.1 none	Z.ai	9.8	5.5	$0.164	2/2	1.98s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.164 प्रतिसाद वेळ (सरासरी) 1.98s
#123	GPT-5.6 Luna low	OpenAI	8.5	6.2	$0.249	1/2	2.04s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.249 प्रतिसाद वेळ (सरासरी) 2.04s
#6	Gemini 3.6 Flash low	Google	10.0	9.4	$0.517	2/2	2.05s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.517 प्रतिसाद वेळ (सरासरी) 2.05s
#60	GPT-5.4 Mini medium	OpenAI	9.8	7.5	$0.756	2/2	2.13s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.756 प्रतिसाद वेळ (सरासरी) 2.13s
#176	GLM 5 Turbo none	Z.ai	6.5	5.1	$0.047	1/2	2.13s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.047 प्रतिसाद वेळ (सरासरी) 2.13s
#38	GPT-5.6 Terra high	OpenAI	10.0	8.0	$1.055	2/2	2.14s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.055 प्रतिसाद वेळ (सरासरी) 2.14s
#5	GPT-5.6 Sol low	OpenAI	10.0	9.5	$0.971	2/2	2.27s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.971 प्रतिसाद वेळ (सरासरी) 2.27s
#54	GPT-5.6 Luna medium	OpenAI	9.9	7.6	$0.352	2/2	2.38s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.352 प्रतिसाद वेळ (सरासरी) 2.38s

सूचनांचे पालन क्रमवारी

मॉडेल फिल्टर करा

सूचनांचे पालन स्कोअर नुसार शीर्ष मॉडेल्स

सूचनांचे पालन स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स