सूचनांचे पालन मॉडेल क्रमवारी

सूचनांचे पालन मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↓.

दाखवलेली मॉडेल्स

सरासरी सूचनांचे पालन स्कोअर

8.6

सर्वोत्तम मॉडेल

Gemini 3.6 Flash 9.9

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह61 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह19 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2 अयशस्वी होण्याचे कारण API त्रुटी सह1 अयशस्वी होण्याचे कारण वेळ संपला सह1

216/216

क्रमांक	मॉडेल	कंपनी	सूचनांचे पालन स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#51	MiniMax M3 medium	Minimax	9.8	7.6	$0.286	2/2	6.14s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.286 प्रतिसाद वेळ (सरासरी) 6.14s
#52	Grok Build 0.1 medium	X AI	9.8	7.6	$1.097	2/2	12.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.097 प्रतिसाद वेळ (सरासरी) 12.4s
#53	GLM 5 Turbo medium	Z.ai	10.0	7.6	$0.323	2/2	5.38s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.323 प्रतिसाद वेळ (सरासरी) 5.38s
#54	GPT-5.6 Luna medium	OpenAI	9.9	7.6	$0.352	2/2	2.38s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.352 प्रतिसाद वेळ (सरासरी) 2.38s
#55	Nemotron 3 Ultra medium	NVIDIA	9.8	7.5	$0.774	2/2	6.35s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.774 प्रतिसाद वेळ (सरासरी) 6.35s
#56	Kimi K2.7 Code medium	Moonshot AI	9.9	7.5	$0.740	2/2	5.39s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.740 प्रतिसाद वेळ (सरासरी) 5.39s
#57	GPT-5.4 Nano medium	OpenAI	9.8	7.5	$0.138	2/2	1.88s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.138 प्रतिसाद वेळ (सरासरी) 1.88s
#58	GPT-5.3 Chat none	OpenAI	9.8	7.5	$0.571	2/2	3.51s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.571 प्रतिसाद वेळ (सरासरी) 3.51s
#59	GPT-5.6 Terra low	OpenAI	10.0	7.5	$0.519	2/2	1.48s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.519 प्रतिसाद वेळ (सरासरी) 1.48s
#60	GPT-5.4 Mini medium	OpenAI	9.8	7.5	$0.756	2/2	2.13s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.756 प्रतिसाद वेळ (सरासरी) 2.13s
#61	Qwen3.5 Plus 2026-02-15 medium	Qwen	10.0	7.5	$0.437	2/2	31.9s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.437 प्रतिसाद वेळ (सरासरी) 31.9s
#62	Qwen3.5-27B medium	Qwen	10.0	7.4	$1.627	2/2	19.7s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.627 प्रतिसाद वेळ (सरासरी) 19.7s
#63	Qwen3.7 Max none	Qwen	10.0	7.4	$0.197	2/2	943ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.197 प्रतिसाद वेळ (सरासरी) 943ms
#65	Gemini 3 Flash Preview low	Google	9.9	7.4	$0.177	2/2	7.02s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.177 प्रतिसाद वेळ (सरासरी) 7.02s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	10.0	7.4	$0.387	2/2	2.53s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.387 प्रतिसाद वेळ (सरासरी) 2.53s

सूचनांचे पालन क्रमवारी

मॉडेल फिल्टर करा

सूचनांचे पालन स्कोअर नुसार शीर्ष मॉडेल्स

सूचनांचे पालन स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स