सूचनांचे पालन मॉडेल क्रमवारी

सूचनांचे पालन मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↓.

दाखवलेली मॉडेल्स

सरासरी सूचनांचे पालन स्कोअर

8.6

सर्वोत्तम मॉडेल

Kimi K2.5 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह61 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह19 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2 अयशस्वी होण्याचे कारण API त्रुटी सह1 अयशस्वी होण्याचे कारण वेळ संपला सह1

216/216

क्रमांक	मॉडेल	कंपनी	सूचनांचे पालन स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#58	GPT-5.3 Chat none	OpenAI	9.8	7.5	$0.571	2/2	3.51s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.571 प्रतिसाद वेळ (सरासरी) 3.51s
#181	Qwen3.6 Plus Preview medium	Qwen	6.5	4.9	$0.000	1/2	3.40s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 3.40s
#83	Gemini 3.5 Flash none	Google	9.8	7.0	$1.079	2/2	3.38s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.079 प्रतिसाद वेळ (सरासरी) 3.38s
#13	GPT-5.5 medium	OpenAI	10.0	9.0	$4.137	2/2	3.36s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $4.137 प्रतिसाद वेळ (सरासरी) 3.36s
#115	Mimo V2 PRO medium	Xiaomi	9.9	6.3	$0.333	2/2	3.36s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.333 प्रतिसाद वेळ (सरासरी) 3.36s
#4	Gemini 3.5 Flash high	Google	10.0	9.5	$1.976	2/2	3.35s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.976 प्रतिसाद वेळ (सरासरी) 3.35s
#17	Claude Opus 4.8 medium	Anthropic	10.0	8.8	$1.931	2/2	3.32s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.931 प्रतिसाद वेळ (सरासरी) 3.32s
#139	Gemini 3 PRO Preview medium	Google	9.8	6.0	$0.385	2/2	3.26s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.385 प्रतिसाद वेळ (सरासरी) 3.26s
#24	GPT-5.2 medium	OpenAI	9.9	8.4	$0.951	2/2	3.12s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.951 प्रतिसाद वेळ (सरासरी) 3.12s
#21	GPT-5.4 medium	OpenAI	10.0	8.5	$1.533	2/2	3.11s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.533 प्रतिसाद वेळ (सरासरी) 3.11s
#26	Claude Sonnet 5 medium	Anthropic	9.9	8.3	$0.922	2/2	3.10s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.922 प्रतिसाद वेळ (सरासरी) 3.10s
#16	GPT-5.3-Codex medium	OpenAI	10.0	8.9	$0.920	2/2	3.04s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.920 प्रतिसाद वेळ (सरासरी) 3.04s
#200	GLM 4.7 Flash medium	Z.ai	6.2	4.3	$0.166	1/2	2.97s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.166 प्रतिसाद वेळ (सरासरी) 2.97s
#121	Gemma 4 31B none	Google	6.5	6.2	$0.021	1/2	2.84s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.021 प्रतिसाद वेळ (सरासरी) 2.84s
#202	Hunter Alpha none	OpenRouter	6.4	4.2	$0.000	1/2	2.82s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 2.82s

सूचनांचे पालन क्रमवारी

मॉडेल फिल्टर करा

सूचनांचे पालन स्कोअर नुसार शीर्ष मॉडेल्स

सूचनांचे पालन स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स