सूचनांचे पालन मॉडेल क्रमवारी

सूचनांचे पालन मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↓.

दाखवलेली मॉडेल्स

सरासरी सूचनांचे पालन स्कोअर

8.5

सर्वोत्तम मॉडेल

Gemini 3 Flash Preview 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह61 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह18 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2 अयशस्वी होण्याचे कारण API त्रुटी सह1 अयशस्वी होण्याचे कारण वेळ संपला सह1

210/210

क्रमांक	मॉडेल	कंपनी	सूचनांचे पालन स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#34	GPT-5.6 Terra high	OpenAI	10.0	8.0	$1.055	2/2	2.14s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.055 प्रतिसाद वेळ (सरासरी) 2.14s
#35	Seed-2.0-Lite medium	Bytedance Seed	10.0	7.9	$0.234	2/2	7.26s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.234 प्रतिसाद वेळ (सरासरी) 7.26s
#36	Qwen3.7 Plus medium	Qwen	10.0	7.9	$0.267	2/2	16.1s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.267 प्रतिसाद वेळ (सरासरी) 16.1s
#37	Qwen3.6 Plus medium	Qwen	10.0	7.8	$0.405	2/2	7.54s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.405 प्रतिसाद वेळ (सरासरी) 7.54s
#38	GLM 5.2 medium	Z.ai	9.9	7.8	$0.222	2/2	7.90s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.222 प्रतिसाद वेळ (सरासरी) 7.90s
#39	GPT-5.6 Terra medium	OpenAI	10.0	7.8	$0.676	2/2	1.43s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.676 प्रतिसाद वेळ (सरासरी) 1.43s
#40	Claude Sonnet 4.6 medium	Anthropic	10.0	7.8	$2.057	2/2	2.61s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $2.057 प्रतिसाद वेळ (सरासरी) 2.61s
#41	Claude Opus 4.8 low	Anthropic	9.8	7.8	$2.077	2/2	2.78s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $2.077 प्रतिसाद वेळ (सरासरी) 2.78s
#42	GLM 5 medium	Z.ai	10.0	7.7	$0.307	2/2	7.25s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.307 प्रतिसाद वेळ (सरासरी) 7.25s
#43	Claude Opus 4.6 medium	Anthropic	10.0	7.7	$3.059	2/2	2.43s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $3.059 प्रतिसाद वेळ (सरासरी) 2.43s
#44	GPT-5.6 Luna high	OpenAI	9.9	7.7	$1.017	2/2	1.79s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.017 प्रतिसाद वेळ (सरासरी) 1.79s
#45	DeepSeek V4 Flash high	DeepSeek	10.0	7.7	$0.042	2/2	15.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.042 प्रतिसाद वेळ (सरासरी) 15.4s
#47	MiniMax M3 medium	Minimax	9.8	7.6	$0.286	2/2	6.14s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.286 प्रतिसाद वेळ (सरासरी) 6.14s
#48	Grok Build 0.1 medium	X AI	9.8	7.6	$1.097	2/2	12.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.097 प्रतिसाद वेळ (सरासरी) 12.4s
#49	GLM 5 Turbo medium	Z.ai	10.0	7.6	$0.323	2/2	5.38s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.323 प्रतिसाद वेळ (सरासरी) 5.38s

सूचनांचे पालन क्रमवारी

मॉडेल फिल्टर करा

सूचनांचे पालन स्कोअर नुसार शीर्ष मॉडेल्स

सूचनांचे पालन स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स