सूचनांचे पालन मॉडेल क्रमवारी

सूचनांचे पालन मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↓.

दाखवलेली मॉडेल्स

सरासरी सूचनांचे पालन स्कोअर

8.5

सर्वोत्तम मॉडेल

Gemini 3 Flash Preview 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह61 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह18 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2 अयशस्वी होण्याचे कारण API त्रुटी सह1 अयशस्वी होण्याचे कारण वेळ संपला सह1

210/210

क्रमांक	मॉडेल	कंपनी	सूचनांचे पालन स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#17	Claude Fable 5 medium	Anthropic	10.0	8.6	$3.478	2/2	5.90s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $3.478 प्रतिसाद वेळ (सरासरी) 5.90s
#18	GPT-5.4 medium	OpenAI	10.0	8.5	$1.533	2/2	3.11s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.533 प्रतिसाद वेळ (सरासरी) 3.11s
#19	Qwen3.6 Max Preview medium	Qwen	10.0	8.4	$1.143	2/2	24.3s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.143 प्रतिसाद वेळ (सरासरी) 24.3s
#20	Grok 4.5 low	X AI	9.8	8.4	$0.935	2/2	2.80s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.935 प्रतिसाद वेळ (सरासरी) 2.80s
#21	GPT-5.2 medium	OpenAI	9.9	8.4	$0.951	2/2	3.12s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.951 प्रतिसाद वेळ (सरासरी) 3.12s
#22	Grok 4.5 medium	X AI	9.8	8.3	$1.928	2/2	6.06s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.928 प्रतिसाद वेळ (सरासरी) 6.06s
#23	Claude Sonnet 5 medium	Anthropic	9.9	8.3	$0.922	2/2	3.10s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.922 प्रतिसाद वेळ (सरासरी) 3.10s
#25	Gemini 2.5 Flash medium	Google	9.8	8.2	$0.643	2/2	2.62s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.643 प्रतिसाद वेळ (सरासरी) 2.62s
#26	GPT-5 Mini medium	OpenAI	10.0	8.1	$0.237	2/2	11.6s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.237 प्रतिसाद वेळ (सरासरी) 11.6s
#28	Inkling high	Thinkingmachines	9.8	8.0	$1.006	2/2	7.00s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.006 प्रतिसाद वेळ (सरासरी) 7.00s
#29	Step 3.7 Flash medium	Stepfun	9.8	8.0	$0.515	2/2	1.83s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.515 प्रतिसाद वेळ (सरासरी) 1.83s
#30	GPT-5.2 Chat none	OpenAI	9.8	8.0	$0.604	2/2	5.51s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.604 प्रतिसाद वेळ (सरासरी) 5.51s
#31	GLM 5.2 high	Z.ai	10.0	8.0	$0.970	2/2	4.26s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.970 प्रतिसाद वेळ (सरासरी) 4.26s
#32	Inkling medium	Thinkingmachines	9.8	8.0	$0.391	2/2	6.17s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.391 प्रतिसाद वेळ (सरासरी) 6.17s
#33	Kimi K3 max	Moonshot AI	10.0	8.0	$3.112	2/2	7.66s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $3.112 प्रतिसाद वेळ (सरासरी) 7.66s

सूचनांचे पालन क्रमवारी

मॉडेल फिल्टर करा

सूचनांचे पालन स्कोअर नुसार शीर्ष मॉडेल्स

सूचनांचे पालन स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स