सूचनांचे पालन मॉडेल क्रमवारी

सूचनांचे पालन मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा.

दाखवलेली मॉडेल्स

सरासरी सूचनांचे पालन स्कोअर

8.6

सर्वोत्तम मॉडेल

Gemini 3 Flash Preview 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह61 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह19 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2 अयशस्वी होण्याचे कारण API त्रुटी सह1 अयशस्वी होण्याचे कारण वेळ संपला सह1

216/216

क्रमांक	मॉडेल	कंपनी	सूचनांचे पालन स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#138	GPT-5.6 Terra none	OpenAI	8.5	6.0	$0.349	1/2	1.15s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.349 प्रतिसाद वेळ (सरासरी) 1.15s
#31	Gemini 3.5 Flash-Lite high	Google	8.5	8.1	$0.584	1/2	1.87s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.584 प्रतिसाद वेळ (सरासरी) 1.87s
#123	GPT-5.6 Luna low	OpenAI	8.5	6.2	$0.249	1/2	2.04s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.249 प्रतिसाद वेळ (सरासरी) 2.04s
#136	Step 3.5 Flash medium	Stepfun	8.3	6.0	$0.108	1/2	4.78s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.108 प्रतिसाद वेळ (सरासरी) 4.78s
#140	Mimo V2 Omni medium	Xiaomi	8.3	5.9	$0.683	1/2	4.99s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.683 प्रतिसाद वेळ (सरासरी) 4.99s
#50	DeepSeek V4 Pro high	DeepSeek	7.8	7.7	$0.200	1/2	8.73s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.200 प्रतिसाद वेळ (सरासरी) 8.73s
#196	MiniMax M2.5 medium	Minimax	7.5	4.6	$0.340	1/2	621ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.340 प्रतिसाद वेळ (सरासरी) 621ms
#149	Gemini 3.1 Flash Lite high	Google	7.3	5.6	$2.044	1/2	23.3s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $2.044 प्रतिसाद वेळ (सरासरी) 23.3s
#173	Mistral Small 4 medium	Mistral	7.3	5.1	$0.096	1/2	1.38s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.096 प्रतिसाद वेळ (सरासरी) 1.38s
#27	Muse Spark 1.1 low	Meta	7.3	8.3	$0.647	1/2	5.42s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.647 प्रतिसाद वेळ (सरासरी) 5.42s
#146	Nemotron 3 Super medium	NVIDIA	7.3	5.7	$0.055	1/2	6.97s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.055 प्रतिसाद वेळ (सरासरी) 6.97s
#213	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	7.3	3.4	$0.000	1/2	1.37s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 1.37s
#165	GPT-5.6 Luna none	OpenAI	7.1	5.4	$0.142	1/2	1.23s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.142 प्रतिसाद वेळ (सरासरी) 1.23s
#19	Muse Spark 1.1 medium	Meta	6.5	8.6	$1.357	1/2	6.31s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $1.357 प्रतिसाद वेळ (सरासरी) 6.31s
#64	LongCat 2.0 medium	Meituan	6.5	7.4	$0.478	1/2	7.38s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.478 प्रतिसाद वेळ (सरासरी) 7.38s

←

1 9 10 11 15

→

सूचनांचे पालन क्रमवारी

मॉडेल फिल्टर करा

सूचनांचे पालन स्कोअर नुसार शीर्ष मॉडेल्स

सूचनांचे पालन स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स