सूचनांचे पालन मॉडेल क्रमवारी

सूचनांचे पालन मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा.

दाखवलेली मॉडेल्स

सरासरी सूचनांचे पालन स्कोअर

8.5

सर्वोत्तम मॉडेल

Gemini 3 Flash Preview 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह61 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह18 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2 अयशस्वी होण्याचे कारण API त्रुटी सह1 अयशस्वी होण्याचे कारण वेळ संपला सह1

210/210

क्रमांक	मॉडेल	कंपनी	सूचनांचे पालन स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#59	Qwen3.7 Max none	Qwen	10.0	7.4	$0.197	2/2	943ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.197 प्रतिसाद वेळ (सरासरी) 943ms
#62	KAT-Coder-Pro V2.5 low	Kwaipilot	10.0	7.4	$0.387	2/2	2.53s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.387 प्रतिसाद वेळ (सरासरी) 2.53s
#64	Gemini 3.1 Flash Lite Preview medium	Google	10.0	7.3	$0.115	2/2	1.91s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.115 प्रतिसाद वेळ (सरासरी) 1.91s
#68	Kimi K2.6 medium	Moonshot AI	10.0	7.2	$1.036	2/2	12.5s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.036 प्रतिसाद वेळ (सरासरी) 12.5s
#70	Qwen3.5 Plus 2026-04-20 medium	Qwen	10.0	7.2	$0.317	2/2	20.2s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.317 प्रतिसाद वेळ (सरासरी) 20.2s
#72	Qwen3.5-122B-A10B medium	Qwen	10.0	7.1	$1.046	2/2	9.88s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.046 प्रतिसाद वेळ (सरासरी) 9.88s
#76	DeepSeek V3.2 medium	DeepSeek	10.0	7.0	$0.078	2/2	35.8s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.078 प्रतिसाद वेळ (सरासरी) 35.8s
#77	Kimi K2.5 medium	Moonshot AI	10.0	7.0	$0.600	2/2	92.5s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.600 प्रतिसाद वेळ (सरासरी) 92.5s
#78	Mercury 2 medium	Inception	10.0	7.0	$0.093	2/2	1.07s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.093 प्रतिसाद वेळ (सरासरी) 1.07s
#80	Seed-2.0-Mini medium	Bytedance Seed	10.0	7.0	$0.101	2/2	17.5s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.101 प्रतिसाद वेळ (सरासरी) 17.5s
#85	Qwen3.6 Flash medium	Qwen	10.0	6.9	$0.738	2/2	6.05s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.738 प्रतिसाद वेळ (सरासरी) 6.05s
#90	Qwen3.6 35B A3B medium	Qwen	10.0	6.7	$0.746	2/2	7.50s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.746 प्रतिसाद वेळ (सरासरी) 7.50s
#94	Claude Opus 4.7 none	Anthropic	10.0	6.6	$0.505	2/2	1.46s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.505 प्रतिसाद वेळ (सरासरी) 1.46s
#95	Gemma 4 26B A4B medium	Google	10.0	6.6	$0.089	2/2	17.5s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.089 प्रतिसाद वेळ (सरासरी) 17.5s
#99	Qwen3.6 27B medium	Qwen	10.0	6.5	$0.779	2/2	38.0s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.779 प्रतिसाद वेळ (सरासरी) 38.0s

सूचनांचे पालन क्रमवारी

मॉडेल फिल्टर करा

सूचनांचे पालन स्कोअर नुसार शीर्ष मॉडेल्स

सूचनांचे पालन स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स