सूचनांचे पालन मॉडेल क्रमवारी

सूचनांचे पालन मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↓.

दाखवलेली मॉडेल्स

सरासरी सूचनांचे पालन स्कोअर

8.6

सर्वोत्तम मॉडेल

Gemini 3.6 Flash 9.9

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह61 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह19 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2 अयशस्वी होण्याचे कारण API त्रुटी सह1 अयशस्वी होण्याचे कारण वेळ संपला सह1

216/216

क्रमांक	मॉडेल	कंपनी	सूचनांचे पालन स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#19	Muse Spark 1.1 medium	Meta	6.5	8.6	$1.357	1/2	6.31s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $1.357 प्रतिसाद वेळ (सरासरी) 6.31s
#27	Muse Spark 1.1 low	Meta	7.3	8.3	$0.647	1/2	5.42s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.647 प्रतिसाद वेळ (सरासरी) 5.42s
#30	Muse Spark 1.1 high	Meta	6.4	8.1	$1.694	1/2	7.81s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $1.694 प्रतिसाद वेळ (सरासरी) 7.81s
#31	Gemini 3.5 Flash-Lite high	Google	8.5	8.1	$0.584	1/2	1.87s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.584 प्रतिसाद वेळ (सरासरी) 1.87s
#50	DeepSeek V4 Pro high	DeepSeek	7.8	7.7	$0.200	1/2	8.73s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.200 प्रतिसाद वेळ (सरासरी) 8.73s
#64	LongCat 2.0 medium	Meituan	6.5	7.4	$0.478	1/2	7.38s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.478 प्रतिसाद वेळ (सरासरी) 7.38s
#67	Claude Sonnet 4.6 none	Anthropic	6.5	7.3	$0.661	1/2	1.96s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.661 प्रतिसाद वेळ (सरासरी) 1.96s
#75	Qwen3.7 Plus none	Qwen	6.3	7.2	$0.106	1/2	929ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.106 प्रतिसाद वेळ (सरासरी) 929ms
#78	GLM 5.1 medium	Z.ai	6.4	7.1	$0.535	1/2	7.47s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.535 प्रतिसाद वेळ (सरासरी) 7.47s
#86	DeepSeek V4 Pro none	DeepSeek	6.3	6.9	$0.096	1/2	4.12s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.096 प्रतिसाद वेळ (सरासरी) 4.12s
#87	GPT-5.6 Sol none	OpenAI	8.5	6.9	$0.524	1/2	1.33s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.524 प्रतिसाद वेळ (सरासरी) 1.33s
#91	GPT-5.5 none	OpenAI	6.2	6.9	$0.544	1/2	1.15s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.544 प्रतिसाद वेळ (सरासरी) 1.15s
#92	Gemini 3.5 Flash minimal	Google	6.4	6.8	$0.300	1/2	893ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.300 प्रतिसाद वेळ (सरासरी) 893ms
#93	Gemini 3 Flash Preview none	Google	6.4	6.8	$0.085	1/2	1.58s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.085 प्रतिसाद वेळ (सरासरी) 1.58s
#96	LongCat 2.0 low	Meituan	6.5	6.7	$0.391	1/2	6.39s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.391 प्रतिसाद वेळ (सरासरी) 6.39s

←

1 9 10 11 15

→

सूचनांचे पालन क्रमवारी

मॉडेल फिल्टर करा

सूचनांचे पालन स्कोअर नुसार शीर्ष मॉडेल्स

सूचनांचे पालन स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स