सूचनांचे पालन मॉडेल क्रमवारी

सूचनांचे पालन मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↓.

दाखवलेली मॉडेल्स

सरासरी सूचनांचे पालन स्कोअर

8.6

सर्वोत्तम मॉडेल

Gemini 3.6 Flash 9.9

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह61 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह19 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2 अयशस्वी होण्याचे कारण API त्रुटी सह1 अयशस्वी होण्याचे कारण वेळ संपला सह1

216/216

क्रमांक	मॉडेल	कंपनी	सूचनांचे पालन स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#68	Gemini 3.1 Flash Lite Preview medium	Google	10.0	7.3	$0.115	2/2	1.91s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.115 प्रतिसाद वेळ (सरासरी) 1.91s
#69	Gemini 3.1 Flash Lite medium	Google	9.9	7.3	$0.117	2/2	2.59s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.117 प्रतिसाद वेळ (सरासरी) 2.59s
#70	Claude Opus 4.8 none	Anthropic	9.9	7.3	$1.166	2/2	1.37s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.166 प्रतिसाद वेळ (सरासरी) 1.37s
#71	Step 3.7 Flash low	Stepfun	9.8	7.3	$0.454	2/2	1.58s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.454 प्रतिसाद वेळ (सरासरी) 1.58s
#72	Kimi K2.6 medium	Moonshot AI	10.0	7.2	$1.036	2/2	12.5s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.036 प्रतिसाद वेळ (सरासरी) 12.5s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	9.9	7.2	$0.482	2/2	2.67s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.482 प्रतिसाद वेळ (सरासरी) 2.67s
#74	Qwen3.5 Plus 2026-04-20 medium	Qwen	10.0	7.2	$0.317	2/2	20.2s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.317 प्रतिसाद वेळ (सरासरी) 20.2s
#76	Qwen3.5-122B-A10B medium	Qwen	10.0	7.1	$1.046	2/2	9.88s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.046 प्रतिसाद वेळ (सरासरी) 9.88s
#77	Grok 4.3 medium	X AI	9.8	7.1	$0.779	2/2	18.6s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.779 प्रतिसाद वेळ (सरासरी) 18.6s
#79	Grok 4.20 medium	X AI	9.8	7.1	$0.777	2/2	4.26s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.777 प्रतिसाद वेळ (सरासरी) 4.26s
#80	DeepSeek V3.2 medium	DeepSeek	10.0	7.0	$0.078	2/2	35.8s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.078 प्रतिसाद वेळ (सरासरी) 35.8s
#81	Kimi K2.5 medium	Moonshot AI	10.0	7.0	$0.600	2/2	92.5s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.600 प्रतिसाद वेळ (सरासरी) 92.5s
#82	Mercury 2 medium	Inception	10.0	7.0	$0.093	2/2	1.07s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.093 प्रतिसाद वेळ (सरासरी) 1.07s
#83	Gemini 3.5 Flash none	Google	9.8	7.0	$1.079	2/2	3.38s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.079 प्रतिसाद वेळ (सरासरी) 3.38s
#84	Seed-2.0-Mini medium	Bytedance Seed	10.0	7.0	$0.101	2/2	17.5s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.101 प्रतिसाद वेळ (सरासरी) 17.5s

सूचनांचे पालन क्रमवारी

मॉडेल फिल्टर करा

सूचनांचे पालन स्कोअर नुसार शीर्ष मॉडेल्स

सूचनांचे पालन स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स