सूचनांचे पालन मॉडेल क्रमवारी

सूचनांचे पालन मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↓.

दाखवलेली मॉडेल्स

सरासरी सूचनांचे पालन स्कोअर

8.6

सर्वोत्तम मॉडेल

Kimi K2.5 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह61 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह19 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2 अयशस्वी होण्याचे कारण API त्रुटी सह1 अयशस्वी होण्याचे कारण वेळ संपला सह1

216/216

क्रमांक	मॉडेल	कंपनी	सूचनांचे पालन स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	9.9	6.9	$0.467	2/2	2.58s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.467 प्रतिसाद वेळ (सरासरी) 2.58s
#108	Laguna XS 2.1 medium	Poolside	9.8	6.5	$0.068	2/2	2.57s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.068 प्रतिसाद वेळ (सरासरी) 2.57s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	10.0	7.4	$0.387	2/2	2.53s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.387 प्रतिसाद वेळ (सरासरी) 2.53s
#153	Mimo V2 PRO none	Xiaomi	6.5	5.6	$0.045	1/2	2.51s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.045 प्रतिसाद वेळ (सरासरी) 2.51s
#7	GPT-5.6 Sol medium	OpenAI	10.0	9.4	$1.316	2/2	2.50s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.316 प्रतिसाद वेळ (सरासरी) 2.50s
#47	Claude Opus 4.6 medium	Anthropic	10.0	7.7	$3.059	2/2	2.43s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $3.059 प्रतिसाद वेळ (सरासरी) 2.43s
#54	GPT-5.6 Luna medium	OpenAI	9.9	7.6	$0.352	2/2	2.38s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.352 प्रतिसाद वेळ (सरासरी) 2.38s
#5	GPT-5.6 Sol low	OpenAI	10.0	9.5	$0.971	2/2	2.27s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.971 प्रतिसाद वेळ (सरासरी) 2.27s
#38	GPT-5.6 Terra high	OpenAI	10.0	8.0	$1.055	2/2	2.14s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.055 प्रतिसाद वेळ (सरासरी) 2.14s
#176	GLM 5 Turbo none	Z.ai	6.5	5.1	$0.047	1/2	2.13s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.047 प्रतिसाद वेळ (सरासरी) 2.13s
#60	GPT-5.4 Mini medium	OpenAI	9.8	7.5	$0.756	2/2	2.13s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.756 प्रतिसाद वेळ (सरासरी) 2.13s
#6	Gemini 3.6 Flash low	Google	10.0	9.4	$0.517	2/2	2.05s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.517 प्रतिसाद वेळ (सरासरी) 2.05s
#123	GPT-5.6 Luna low	OpenAI	8.5	6.2	$0.249	1/2	2.04s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.249 प्रतिसाद वेळ (सरासरी) 2.04s
#157	GLM 5.1 none	Z.ai	9.8	5.5	$0.164	2/2	1.98s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.164 प्रतिसाद वेळ (सरासरी) 1.98s
#151	GLM 5V Turbo none	Z.ai	6.5	5.6	$0.052	1/2	1.97s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.052 प्रतिसाद वेळ (सरासरी) 1.97s

सूचनांचे पालन क्रमवारी

मॉडेल फिल्टर करा

सूचनांचे पालन स्कोअर नुसार शीर्ष मॉडेल्स

सूचनांचे पालन स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स