सूचनांचे पालन मॉडेल क्रमवारी

सूचनांचे पालन मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↓.

दाखवलेली मॉडेल्स

सरासरी सूचनांचे पालन स्कोअर

8.6

सर्वोत्तम मॉडेल

Gemini 3.6 Flash 9.9

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह61 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह19 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2 अयशस्वी होण्याचे कारण API त्रुटी सह1 अयशस्वी होण्याचे कारण वेळ संपला सह1

216/216

क्रमांक	मॉडेल	कंपनी	सूचनांचे पालन स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#127	gpt-oss-120b medium	OpenAI	9.9	6.1	$0.019	2/2	7.63s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.019 प्रतिसाद वेळ (सरासरी) 7.63s
#128	Gemini 3.1 Flash Lite none	Google	10.0	6.1	$0.046	2/2	859ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.046 प्रतिसाद वेळ (सरासरी) 859ms
#129	Inkling low	Thinkingmachines	9.8	6.1	$0.187	2/2	1.81s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.187 प्रतिसाद वेळ (सरासरी) 1.81s
#134	GPT-5 Nano medium	OpenAI	9.8	6.1	$0.114	2/2	15.6s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.114 प्रतिसाद वेळ (सरासरी) 15.6s
#135	Nemotron 3 Ultra none	NVIDIA	10.0	6.1	$0.095	2/2	1.46s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.095 प्रतिसाद वेळ (सरासरी) 1.46s
#137	Grok 4.20 Beta medium	X AI	9.8	6.0	$0.750	2/2	4.89s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.750 प्रतिसाद वेळ (सरासरी) 4.89s
#139	Gemini 3 PRO Preview medium	Google	9.8	6.0	$0.385	2/2	3.26s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.385 प्रतिसाद वेळ (सरासरी) 3.26s
#141	Hy3 preview high	Tencent	10.0	5.9	$0.048	2/2	34.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.048 प्रतिसाद वेळ (सरासरी) 34.4s
#143	North Mini Code medium	Cohere	9.8	5.9	$0.000	2/2	15.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 15.4s
#147	GLM 5 none	Z.ai	10.0	5.7	$0.041	2/2	1.48s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.041 प्रतिसाद वेळ (सरासरी) 1.48s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	9.8	5.6	$0.077	2/2	1.51s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.077 प्रतिसाद वेळ (सरासरी) 1.51s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	10.0	5.6	$0.048	2/2	1.50s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.048 प्रतिसाद वेळ (सरासरी) 1.50s
#157	GLM 5.1 none	Z.ai	9.8	5.5	$0.164	2/2	1.98s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.164 प्रतिसाद वेळ (सरासरी) 1.98s
#159	Hy3 preview low	Tencent	10.0	5.5	$0.015	2/2	16.0s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.015 प्रतिसाद वेळ (सरासरी) 16.0s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	9.8	5.4	$0.041	2/2	1.64s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.041 प्रतिसाद वेळ (सरासरी) 1.64s

सूचनांचे पालन क्रमवारी

मॉडेल फिल्टर करा

सूचनांचे पालन स्कोअर नुसार शीर्ष मॉडेल्स

सूचनांचे पालन स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स