सूचनांचे पालन मॉडेल क्रमवारी

सूचनांचे पालन मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा.

दाखवलेली मॉडेल्स

सरासरी सूचनांचे पालन स्कोअर

8.6

सर्वोत्तम मॉडेल

Gemini 3 Flash Preview 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह61 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह19 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2 अयशस्वी होण्याचे कारण API त्रुटी सह1 अयशस्वी होण्याचे कारण वेळ संपला सह1

216/216

क्रमांक	मॉडेल	कंपनी	सूचनांचे पालन स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#141	Hy3 preview high	Tencent	10.0	5.9	$0.048	2/2	34.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.048 प्रतिसाद वेळ (सरासरी) 34.4s
#147	GLM 5 none	Z.ai	10.0	5.7	$0.041	2/2	1.48s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.041 प्रतिसाद वेळ (सरासरी) 1.48s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	10.0	5.6	$0.048	2/2	1.50s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.048 प्रतिसाद वेळ (सरासरी) 1.50s
#159	Hy3 preview low	Tencent	10.0	5.5	$0.015	2/2	16.0s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.015 प्रतिसाद वेळ (सरासरी) 16.0s
#179	DeepSeek V3.2 none	DeepSeek	10.0	5.0	$0.054	2/2	1.52s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.054 प्रतिसाद वेळ (सरासरी) 1.52s
#192	Laguna M.1 medium	Poolside	10.0	4.7	$0.033	2/2	4.30s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.033 प्रतिसाद वेळ (सरासरी) 4.30s
#204	Laguna Xs.2 medium	Poolside	10.0	4.1	$0.015	2/2	1.68s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.015 प्रतिसाद वेळ (सरासरी) 1.68s
#1	Gemini 3.6 Flash medium	Google	9.9	9.9	$0.831	2/2	2.77s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.831 प्रतिसाद वेळ (सरासरी) 2.77s
#2	Gemini 3.6 Flash high	Google	9.9	9.7	$1.785	2/2	3.94s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.785 प्रतिसाद वेळ (सरासरी) 3.94s
#9	GPT-5.5 low	OpenAI	9.9	9.3	$1.253	2/2	3.74s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.253 प्रतिसाद वेळ (सरासरी) 3.74s
#12	Gemini 3.5 Flash medium	Google	9.9	9.1	$0.642	2/2	2.70s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.642 प्रतिसाद वेळ (सरासरी) 2.70s
#14	Gemini 3.5 Flash low	Google	9.9	8.9	$0.433	2/2	1.86s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.433 प्रतिसाद वेळ (सरासरी) 1.86s
#24	GPT-5.2 medium	OpenAI	9.9	8.4	$0.951	2/2	3.12s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.951 प्रतिसाद वेळ (सरासरी) 3.12s
#26	Claude Sonnet 5 medium	Anthropic	9.9	8.3	$0.922	2/2	3.10s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.922 प्रतिसाद वेळ (सरासरी) 3.10s
#42	GLM 5.2 medium	Z.ai	9.9	7.8	$0.187	2/2	7.90s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.187 प्रतिसाद वेळ (सरासरी) 7.90s

सूचनांचे पालन क्रमवारी

मॉडेल फिल्टर करा

सूचनांचे पालन स्कोअर नुसार शीर्ष मॉडेल्स

सूचनांचे पालन स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स