सूचनांचे पालन मॉडेल क्रमवारी

सूचनांचे पालन मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↑.

दाखवलेली मॉडेल्स

सरासरी सूचनांचे पालन स्कोअर

8.5

सर्वोत्तम मॉडेल

Laguna XS 2.1 3.8

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह61 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह18 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2 अयशस्वी होण्याचे कारण API त्रुटी सह1 अयशस्वी होण्याचे कारण वेळ संपला सह1

210/210

क्रमांक	मॉडेल	कंपनी	सूचनांचे पालन स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#83	GPT-5.6 Sol none	OpenAI	8.5	6.9	$0.524	1/2	1.33s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.524 प्रतिसाद वेळ (सरासरी) 1.33s
#87	GPT-5.5 none	OpenAI	6.2	6.9	$0.544	1/2	1.15s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.544 प्रतिसाद वेळ (सरासरी) 1.15s
#88	Gemini 3.5 Flash minimal	Google	6.4	6.8	$0.300	1/2	893ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.300 प्रतिसाद वेळ (सरासरी) 893ms
#89	Gemini 3 Flash Preview none	Google	6.4	6.8	$0.085	1/2	1.58s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.085 प्रतिसाद वेळ (सरासरी) 1.58s
#91	LongCat 2.0 low	Meituan	6.5	6.7	$0.391	1/2	6.39s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.391 प्रतिसाद वेळ (सरासरी) 6.39s
#97	LongCat 2.0 high	Meituan	6.5	6.6	$0.469	1/2	6.96s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.469 प्रतिसाद वेळ (सरासरी) 6.96s
#103	Qwen3.5-27B none	Qwen	6.3	6.5	$0.090	1/2	1.03s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.090 प्रतिसाद वेळ (सरासरी) 1.03s
#111	LongCat 2.0 none	Meituan	6.5	6.3	$0.044	1/2	2.82s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.044 प्रतिसाद वेळ (सरासरी) 2.82s
#112	Claude Sonnet 5 none	Anthropic	6.4	6.3	$0.548	1/2	2.58s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.548 प्रतिसाद वेळ (सरासरी) 2.58s
#115	Gemma 4 31B none	Google	6.5	6.2	$0.035	1/2	2.84s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.035 प्रतिसाद वेळ (सरासरी) 2.84s
#117	GPT-5.6 Luna low	OpenAI	8.5	6.2	$0.249	1/2	2.04s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.249 प्रतिसाद वेळ (सरासरी) 2.04s
#124	Qwen3.6 Flash none	Qwen	6.3	6.1	$0.062	1/2	1.10s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.062 प्रतिसाद वेळ (सरासरी) 1.10s
#125	Qwen3.5-Flash none	Qwen	6.3	6.1	$0.073	1/2	8.81s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.073 प्रतिसाद वेळ (सरासरी) 8.81s
#126	Qwen3.5 Plus 2026-04-20 none	Qwen	6.2	6.1	$0.122	1/2	1.17s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.122 प्रतिसाद वेळ (सरासरी) 1.17s
#127	Qwen3.5-35B-A3B none	Qwen	6.3	6.1	$0.106	1/2	809ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.106 प्रतिसाद वेळ (सरासरी) 809ms

सूचनांचे पालन क्रमवारी

मॉडेल फिल्टर करा

सूचनांचे पालन स्कोअर नुसार शीर्ष मॉडेल्स

सूचनांचे पालन स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स