सूचनांचे पालन मॉडेल क्रमवारी

सूचनांचे पालन मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↓.

दाखवलेली मॉडेल्स

सरासरी सूचनांचे पालन स्कोअर

8.5

सर्वोत्तम मॉडेल

Kimi K2.5 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह61 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह18 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2 अयशस्वी होण्याचे कारण API त्रुटी सह1 अयशस्वी होण्याचे कारण वेळ संपला सह1

210/210

क्रमांक	मॉडेल	कंपनी	सूचनांचे पालन स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#150	DeepSeek V4 Flash none	DeepSeek	6.5	5.6	$0.044	1/2	17.5s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.044 प्रतिसाद वेळ (सरासरी) 17.5s
#95	Gemma 4 26B A4B medium	Google	10.0	6.6	$0.089	2/2	17.5s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.089 प्रतिसाद वेळ (सरासरी) 17.5s
#80	Seed-2.0-Mini medium	Bytedance Seed	10.0	7.0	$0.101	2/2	17.5s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.101 प्रतिसाद वेळ (सरासरी) 17.5s
#36	Qwen3.7 Plus medium	Qwen	10.0	7.9	$0.267	2/2	16.1s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.267 प्रतिसाद वेळ (सरासरी) 16.1s
#153	Hy3 preview low	Tencent	10.0	5.5	$0.015	2/2	16.0s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.015 प्रतिसाद वेळ (सरासरी) 16.0s
#128	GPT-5 Nano medium	OpenAI	9.8	6.1	$0.114	2/2	15.6s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.114 प्रतिसाद वेळ (सरासरी) 15.6s
#137	North Mini Code medium	Cohere	9.8	5.9	$0.000	2/2	15.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 15.4s
#45	DeepSeek V4 Flash high	DeepSeek	10.0	7.7	$0.042	2/2	15.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.042 प्रतिसाद वेळ (सरासरी) 15.4s
#199	Hy3 preview none	Tencent	6.3	4.0	$0.003	1/2	13.0s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.003 प्रतिसाद वेळ (सरासरी) 13.0s
#172	MiniMax M2.7 medium	Minimax	3.8	5.0	$0.163	0/2	12.8s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.163 प्रतिसाद वेळ (सरासरी) 12.8s
#110	Gemma 4 31B medium	Google	10.0	6.3	$0.163	2/2	12.8s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.163 प्रतिसाद वेळ (सरासरी) 12.8s
#68	Kimi K2.6 medium	Moonshot AI	10.0	7.2	$1.036	2/2	12.5s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.036 प्रतिसाद वेळ (सरासरी) 12.5s
#48	Grok Build 0.1 medium	X AI	9.8	7.6	$1.097	2/2	12.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.097 प्रतिसाद वेळ (सरासरी) 12.4s
#108	Ring-2.6-1T medium	Inclusionai	9.8	6.3	$0.103	2/2	11.8s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.103 प्रतिसाद वेळ (सरासरी) 11.8s
#188	Cobuddy medium	Baidu	9.8	4.7	$0.000	2/2	11.6s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 11.6s

सूचनांचे पालन क्रमवारी

मॉडेल फिल्टर करा

सूचनांचे पालन स्कोअर नुसार शीर्ष मॉडेल्स

सूचनांचे पालन स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स