सूचनांचे पालन मॉडेल क्रमवारी

सूचनांचे पालन मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: मेट्रिक ↑.

दाखवलेली मॉडेल्स

सरासरी सूचनांचे पालन स्कोअर

8.6

सर्वोत्तम मॉडेल

Grok 4.1 Fast 3.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह61 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह19 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2 अयशस्वी होण्याचे कारण API त्रुटी सह1 अयशस्वी होण्याचे कारण वेळ संपला सह1

216/216

क्रमांक	मॉडेल	कंपनी	सूचनांचे पालन स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#102	LongCat 2.0 high	Meituan	6.5	6.6	$0.469	1/2	6.96s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.469 प्रतिसाद वेळ (सरासरी) 6.96s
#117	LongCat 2.0 none	Meituan	6.5	6.3	$0.044	1/2	2.82s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.044 प्रतिसाद वेळ (सरासरी) 2.82s
#121	Gemma 4 31B none	Google	6.5	6.2	$0.021	1/2	2.84s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.021 प्रतिसाद वेळ (सरासरी) 2.84s
#144	Kimi K2.6 none	Moonshot AI	6.5	5.8	$0.184	1/2	1.64s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.184 प्रतिसाद वेळ (सरासरी) 1.64s
#145	GPT-5.4 none	OpenAI	6.5	5.8	$0.397	1/2	1.07s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.397 प्रतिसाद वेळ (सरासरी) 1.07s
#151	GLM 5V Turbo none	Z.ai	6.5	5.6	$0.052	1/2	1.97s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.052 प्रतिसाद वेळ (सरासरी) 1.97s
#152	Owl Alpha medium	Openrouter	6.5	5.6	$0.000	1/2	10.2s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 10.2s
#153	Mimo V2 PRO none	Xiaomi	6.5	5.6	$0.045	1/2	2.51s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.045 प्रतिसाद वेळ (सरासरी) 2.51s
#156	DeepSeek V4 Flash none	DeepSeek	6.5	5.6	$0.042	1/2	17.5s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.042 प्रतिसाद वेळ (सरासरी) 17.5s
#161	Kimi K2.5 none	Moonshot AI	6.5	5.5	$0.127	1/2	2.67s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.127 प्रतिसाद वेळ (सरासरी) 2.67s
#163	Mimo V2 Omni none	Xiaomi	6.5	5.5	$0.021	1/2	4.26s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.021 प्रतिसाद वेळ (सरासरी) 4.26s
#171	Mistral Small 4 none	Mistral	6.5	5.1	$0.022	1/2	380ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.022 प्रतिसाद वेळ (सरासरी) 380ms
#174	MiMo-V2.5 none	Xiaomi	6.5	5.1	$0.025	1/2	751ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.025 प्रतिसाद वेळ (सरासरी) 751ms
#175	Qwen3.5-9B none	Qwen	6.5	5.1	$0.021	1/2	514ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.021 प्रतिसाद वेळ (सरासरी) 514ms
#176	GLM 5 Turbo none	Z.ai	6.5	5.1	$0.047	1/2	2.13s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.047 प्रतिसाद वेळ (सरासरी) 2.13s

सूचनांचे पालन क्रमवारी

मॉडेल फिल्टर करा

सूचनांचे पालन स्कोअर नुसार शीर्ष मॉडेल्स

सूचनांचे पालन स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स