सूचनांचे पालन मॉडेल क्रमवारी

सूचनांचे पालन मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↑.

दाखवलेली मॉडेल्स

सरासरी सूचनांचे पालन स्कोअर

8.6

सर्वोत्तम मॉडेल

Granite 4.1 8B 3.6

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह61 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह19 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2 अयशस्वी होण्याचे कारण API त्रुटी सह1 अयशस्वी होण्याचे कारण वेळ संपला सह1

216/216

क्रमांक	मॉडेल	कंपनी	सूचनांचे पालन स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#47	Claude Opus 4.6 medium	Anthropic	10.0	7.7	$3.059	2/2	2.43s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $3.059 प्रतिसाद वेळ (सरासरी) 2.43s
#7	GPT-5.6 Sol medium	OpenAI	10.0	9.4	$1.316	2/2	2.50s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.316 प्रतिसाद वेळ (सरासरी) 2.50s
#153	Mimo V2 PRO none	Xiaomi	6.5	5.6	$0.045	1/2	2.51s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.045 प्रतिसाद वेळ (सरासरी) 2.51s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	10.0	7.4	$0.387	2/2	2.53s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.387 प्रतिसाद वेळ (सरासरी) 2.53s
#108	Laguna XS 2.1 medium	Poolside	9.8	6.5	$0.068	2/2	2.57s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.068 प्रतिसाद वेळ (सरासरी) 2.57s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	9.9	6.9	$0.467	2/2	2.58s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.467 प्रतिसाद वेळ (सरासरी) 2.58s
#118	Claude Sonnet 5 none	Anthropic	6.4	6.3	$0.548	1/2	2.58s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.548 प्रतिसाद वेळ (सरासरी) 2.58s
#69	Gemini 3.1 Flash Lite medium	Google	9.9	7.3	$0.117	2/2	2.59s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.117 प्रतिसाद वेळ (सरासरी) 2.59s
#44	Claude Sonnet 4.6 medium	Anthropic	10.0	7.8	$2.057	2/2	2.61s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $2.057 प्रतिसाद वेळ (सरासरी) 2.61s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	9.8	6.7	$0.476	2/2	2.61s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.476 प्रतिसाद वेळ (सरासरी) 2.61s
#28	Gemini 2.5 Flash medium	Google	9.8	8.2	$0.643	2/2	2.62s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.643 प्रतिसाद वेळ (सरासरी) 2.62s
#154	Owl Alpha none	Openrouter	6.4	5.6	$0.000	1/2	2.63s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 2.63s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	9.9	7.2	$0.482	2/2	2.67s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.482 प्रतिसाद वेळ (सरासरी) 2.67s
#161	Kimi K2.5 none	Moonshot AI	6.5	5.5	$0.127	1/2	2.67s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.127 प्रतिसाद वेळ (सरासरी) 2.67s
#12	Gemini 3.5 Flash medium	Google	9.9	9.1	$0.642	2/2	2.70s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.642 प्रतिसाद वेळ (सरासरी) 2.70s

सूचनांचे पालन क्रमवारी

मॉडेल फिल्टर करा

सूचनांचे पालन स्कोअर नुसार शीर्ष मॉडेल्स

सूचनांचे पालन स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स