सूचनांचे पालन मॉडेल क्रमवारी

सूचनांचे पालन मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↑.

दाखवलेली मॉडेल्स

सरासरी सूचनांचे पालन स्कोअर

8.6

सर्वोत्तम मॉडेल

Laguna XS 2.1 3.8

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह61 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह19 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2 अयशस्वी होण्याचे कारण API त्रुटी सह1 अयशस्वी होण्याचे कारण वेळ संपला सह1

216/216

क्रमांक	मॉडेल	कंपनी	सूचनांचे पालन स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#60	GPT-5.4 Mini medium	OpenAI	9.8	7.5	$0.756	2/2	2.13s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.756 प्रतिसाद वेळ (सरासरी) 2.13s
#61	Qwen3.5 Plus 2026-02-15 medium	Qwen	10.0	7.5	$0.437	2/2	31.9s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.437 प्रतिसाद वेळ (सरासरी) 31.9s
#62	Qwen3.5-27B medium	Qwen	10.0	7.4	$1.627	2/2	19.7s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.627 प्रतिसाद वेळ (सरासरी) 19.7s
#63	Qwen3.7 Max none	Qwen	10.0	7.4	$0.197	2/2	943ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.197 प्रतिसाद वेळ (सरासरी) 943ms
#65	Gemini 3 Flash Preview low	Google	9.9	7.4	$0.177	2/2	7.02s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.177 प्रतिसाद वेळ (सरासरी) 7.02s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	10.0	7.4	$0.387	2/2	2.53s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.387 प्रतिसाद वेळ (सरासरी) 2.53s
#68	Gemini 3.1 Flash Lite Preview medium	Google	10.0	7.3	$0.115	2/2	1.91s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.115 प्रतिसाद वेळ (सरासरी) 1.91s
#69	Gemini 3.1 Flash Lite medium	Google	9.9	7.3	$0.117	2/2	2.59s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.117 प्रतिसाद वेळ (सरासरी) 2.59s
#70	Claude Opus 4.8 none	Anthropic	9.9	7.3	$1.166	2/2	1.37s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.166 प्रतिसाद वेळ (सरासरी) 1.37s
#71	Step 3.7 Flash low	Stepfun	9.8	7.3	$0.454	2/2	1.58s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.454 प्रतिसाद वेळ (सरासरी) 1.58s
#72	Kimi K2.6 medium	Moonshot AI	10.0	7.2	$1.036	2/2	12.5s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.036 प्रतिसाद वेळ (सरासरी) 12.5s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	9.9	7.2	$0.482	2/2	2.67s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.482 प्रतिसाद वेळ (सरासरी) 2.67s
#74	Qwen3.5 Plus 2026-04-20 medium	Qwen	10.0	7.2	$0.317	2/2	20.2s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.317 प्रतिसाद वेळ (सरासरी) 20.2s
#76	Qwen3.5-122B-A10B medium	Qwen	10.0	7.1	$1.046	2/2	9.88s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.046 प्रतिसाद वेळ (सरासरी) 9.88s
#77	Grok 4.3 medium	X AI	9.8	7.1	$0.779	2/2	18.6s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.779 प्रतिसाद वेळ (सरासरी) 18.6s

←

1 9 10 11 15

→

सूचनांचे पालन क्रमवारी

मॉडेल फिल्टर करा

सूचनांचे पालन स्कोअर नुसार शीर्ष मॉडेल्स

सूचनांचे पालन स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स