सूचनांचे पालन मॉडेल क्रमवारी

सूचनांचे पालन मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↓.

दाखवलेली मॉडेल्स

सरासरी सूचनांचे पालन स्कोअर

8.6

सर्वोत्तम मॉडेल

Kimi K2.5 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह61 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह19 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2 अयशस्वी होण्याचे कारण API त्रुटी सह1 अयशस्वी होण्याचे कारण वेळ संपला सह1

216/216

क्रमांक	मॉडेल	कंपनी	सूचनांचे पालन स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#136	Step 3.5 Flash medium	Stepfun	8.3	6.0	$0.108	1/2	4.78s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.108 प्रतिसाद वेळ (सरासरी) 4.78s
#191	Grok 4.1 Fast medium	X AI	6.5	4.7	$0.069	1/2	4.63s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.069 प्रतिसाद वेळ (सरासरी) 4.63s
#192	Laguna M.1 medium	Poolside	10.0	4.7	$0.033	2/2	4.30s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.033 प्रतिसाद वेळ (सरासरी) 4.30s
#119	MiMo-V2-Flash medium	Xiaomi	10.0	6.3	$0.043	2/2	4.28s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.043 प्रतिसाद वेळ (सरासरी) 4.28s
#79	Grok 4.20 medium	X AI	9.8	7.1	$0.777	2/2	4.26s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.777 प्रतिसाद वेळ (सरासरी) 4.26s
#35	GLM 5.2 high	Z.ai	10.0	8.0	$0.817	2/2	4.26s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.817 प्रतिसाद वेळ (सरासरी) 4.26s
#163	Mimo V2 Omni none	Xiaomi	6.5	5.5	$0.021	1/2	4.26s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.021 प्रतिसाद वेळ (सरासरी) 4.26s
#190	Hunter Alpha medium	OpenRouter	9.9	4.7	$0.000	2/2	4.18s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 4.18s
#86	DeepSeek V4 Pro none	DeepSeek	6.3	6.9	$0.096	1/2	4.12s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.096 प्रतिसाद वेळ (सरासरी) 4.12s
#3	Gemini 3 Flash Preview medium	Google	10.0	9.6	$0.742	2/2	4.04s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.742 प्रतिसाद वेळ (सरासरी) 4.04s
#2	Gemini 3.6 Flash high	Google	9.9	9.7	$1.785	2/2	3.94s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.785 प्रतिसाद वेळ (सरासरी) 3.94s
#101	GLM 5.2 none	Z.ai	9.8	6.6	$0.128	2/2	3.84s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.128 प्रतिसाद वेळ (सरासरी) 3.84s
#9	GPT-5.5 low	OpenAI	9.9	9.3	$1.253	2/2	3.74s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.253 प्रतिसाद वेळ (सरासरी) 3.74s
#98	GLM 5V Turbo medium	Z.ai	9.9	6.7	$0.457	2/2	3.74s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.457 प्रतिसाद वेळ (सरासरी) 3.74s
#187	Grok 4.20 Multi Agent Beta medium	X AI	9.8	4.8	$5.599	2/2	3.52s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $5.599 प्रतिसाद वेळ (सरासरी) 3.52s

सूचनांचे पालन क्रमवारी

मॉडेल फिल्टर करा

सूचनांचे पालन स्कोअर नुसार शीर्ष मॉडेल्स

सूचनांचे पालन स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स