सूचनांचे पालन मॉडेल क्रमवारी

सूचनांचे पालन मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↓.

दाखवलेली मॉडेल्स

सरासरी सूचनांचे पालन स्कोअर

8.6

सर्वोत्तम मॉडेल

Kimi K2.5 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह61 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह19 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2 अयशस्वी होण्याचे कारण API त्रुटी सह1 अयशस्वी होण्याचे कारण वेळ संपला सह1

216/216

क्रमांक	मॉडेल	कंपनी	सूचनांचे पालन स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#106	Hy3 preview medium	Tencent	10.0	6.5	$0.018	2/2	6.16s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.018 प्रतिसाद वेळ (सरासरी) 6.16s
#51	MiniMax M3 medium	Minimax	9.8	7.6	$0.286	2/2	6.14s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.286 प्रतिसाद वेळ (सरासरी) 6.14s
#25	Grok 4.5 medium	X AI	9.8	8.3	$1.928	2/2	6.06s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.928 प्रतिसाद वेळ (सरासरी) 6.06s
#89	Qwen3.6 Flash medium	Qwen	10.0	6.9	$0.738	2/2	6.05s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.738 प्रतिसाद वेळ (सरासरी) 6.05s
#20	Claude Fable 5 medium	Anthropic	10.0	8.6	$3.478	2/2	5.90s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $3.478 प्रतिसाद वेळ (सरासरी) 5.90s
#210	Qwen3.5-9B medium	Qwen	6.5	3.8	$0.036	1/2	5.75s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.036 प्रतिसाद वेळ (सरासरी) 5.75s
#184	Ling-2.6-flash none	Inclusionai	9.8	4.9	$0.002	2/2	5.52s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.002 प्रतिसाद वेळ (सरासरी) 5.52s
#34	GPT-5.2 Chat none	OpenAI	9.8	8.0	$0.604	2/2	5.51s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.604 प्रतिसाद वेळ (सरासरी) 5.51s
#27	Muse Spark 1.1 low	Meta	7.3	8.3	$0.647	1/2	5.42s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.647 प्रतिसाद वेळ (सरासरी) 5.42s
#56	Kimi K2.7 Code medium	Moonshot AI	9.9	7.5	$0.740	2/2	5.39s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.740 प्रतिसाद वेळ (सरासरी) 5.39s
#53	GLM 5 Turbo medium	Z.ai	10.0	7.6	$0.323	2/2	5.38s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.323 प्रतिसाद वेळ (सरासरी) 5.38s
#168	Ling-2.6-1T none	Inclusionai	6.4	5.3	$0.016	1/2	5.36s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.016 प्रतिसाद वेळ (सरासरी) 5.36s
#212	gpt-oss-120b none	OpenAI	9.8	3.7	$0.010	2/2	5.06s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.010 प्रतिसाद वेळ (सरासरी) 5.06s
#140	Mimo V2 Omni medium	Xiaomi	8.3	5.9	$0.683	1/2	4.99s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.683 प्रतिसाद वेळ (सरासरी) 4.99s
#137	Grok 4.20 Beta medium	X AI	9.8	6.0	$0.750	2/2	4.89s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.750 प्रतिसाद वेळ (सरासरी) 4.89s

सूचनांचे पालन क्रमवारी

मॉडेल फिल्टर करा

सूचनांचे पालन स्कोअर नुसार शीर्ष मॉडेल्स

सूचनांचे पालन स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स