सूचनांचे पालन मॉडेल क्रमवारी

सूचनांचे पालन मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↑.

दाखवलेली मॉडेल्स

सरासरी सूचनांचे पालन स्कोअर

8.6

सर्वोत्तम मॉडेल

Laguna XS 2.1 3.8

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह61 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह19 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2 अयशस्वी होण्याचे कारण API त्रुटी सह1 अयशस्वी होण्याचे कारण वेळ संपला सह1

216/216

क्रमांक	मॉडेल	कंपनी	सूचनांचे पालन स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#44	Claude Sonnet 4.6 medium	Anthropic	10.0	7.8	$2.057	2/2	2.61s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $2.057 प्रतिसाद वेळ (सरासरी) 2.61s
#45	Claude Opus 4.8 low	Anthropic	9.8	7.8	$2.077	2/2	2.78s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $2.077 प्रतिसाद वेळ (सरासरी) 2.78s
#46	GLM 5 medium	Z.ai	10.0	7.7	$0.307	2/2	7.25s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.307 प्रतिसाद वेळ (सरासरी) 7.25s
#47	Claude Opus 4.6 medium	Anthropic	10.0	7.7	$3.059	2/2	2.43s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $3.059 प्रतिसाद वेळ (सरासरी) 2.43s
#48	GPT-5.6 Luna high	OpenAI	9.9	7.7	$1.017	2/2	1.79s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.017 प्रतिसाद वेळ (सरासरी) 1.79s
#49	DeepSeek V4 Flash high	DeepSeek	10.0	7.7	$0.041	2/2	15.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.041 प्रतिसाद वेळ (सरासरी) 15.4s
#51	MiniMax M3 medium	Minimax	9.8	7.6	$0.286	2/2	6.14s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.286 प्रतिसाद वेळ (सरासरी) 6.14s
#52	Grok Build 0.1 medium	X AI	9.8	7.6	$1.097	2/2	12.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.097 प्रतिसाद वेळ (सरासरी) 12.4s
#53	GLM 5 Turbo medium	Z.ai	10.0	7.6	$0.323	2/2	5.38s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.323 प्रतिसाद वेळ (सरासरी) 5.38s
#54	GPT-5.6 Luna medium	OpenAI	9.9	7.6	$0.352	2/2	2.38s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.352 प्रतिसाद वेळ (सरासरी) 2.38s
#55	Nemotron 3 Ultra medium	NVIDIA	9.8	7.5	$0.774	2/2	6.35s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.774 प्रतिसाद वेळ (सरासरी) 6.35s
#56	Kimi K2.7 Code medium	Moonshot AI	9.9	7.5	$0.740	2/2	5.39s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.740 प्रतिसाद वेळ (सरासरी) 5.39s
#57	GPT-5.4 Nano medium	OpenAI	9.8	7.5	$0.138	2/2	1.88s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.138 प्रतिसाद वेळ (सरासरी) 1.88s
#58	GPT-5.3 Chat none	OpenAI	9.8	7.5	$0.571	2/2	3.51s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.571 प्रतिसाद वेळ (सरासरी) 3.51s
#59	GPT-5.6 Terra low	OpenAI	10.0	7.5	$0.519	2/2	1.48s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.519 प्रतिसाद वेळ (सरासरी) 1.48s

सूचनांचे पालन क्रमवारी

मॉडेल फिल्टर करा

सूचनांचे पालन स्कोअर नुसार शीर्ष मॉडेल्स

सूचनांचे पालन स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स