सूचनांचे पालन मॉडेल क्रमवारी

सूचनांचे पालन मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↓.

दाखवलेली मॉडेल्स

सरासरी सूचनांचे पालन स्कोअर

8.6

सर्वोत्तम मॉडेल

Gemini 3.6 Flash 9.9

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह61 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह19 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2 अयशस्वी होण्याचे कारण API त्रुटी सह1 अयशस्वी होण्याचे कारण वेळ संपला सह1

216/216

क्रमांक	मॉडेल	कंपनी	सूचनांचे पालन स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	9.9	6.9	$0.467	2/2	2.58s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.467 प्रतिसाद वेळ (सरासरी) 2.58s
#88	MiMo-V2.5-Pro medium	Xiaomi	9.9	6.9	$0.187	2/2	2.77s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.187 प्रतिसाद वेळ (सरासरी) 2.77s
#89	Qwen3.6 Flash medium	Qwen	10.0	6.9	$0.738	2/2	6.05s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.738 प्रतिसाद वेळ (सरासरी) 6.05s
#90	Step 3.7 Flash high	Stepfun	9.8	6.9	$1.207	2/2	1.52s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.207 प्रतिसाद वेळ (सरासरी) 1.52s
#94	Qwen3.6 35B A3B medium	Qwen	10.0	6.7	$0.746	2/2	7.50s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.746 प्रतिसाद वेळ (सरासरी) 7.50s
#95	Gemini 3.5 Flash-Lite low	Google	9.8	6.7	$0.145	2/2	869ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.145 प्रतिसाद वेळ (सरासरी) 869ms
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	9.8	6.7	$0.476	2/2	2.61s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.476 प्रतिसाद वेळ (सरासरी) 2.61s
#98	GLM 5V Turbo medium	Z.ai	9.9	6.7	$0.457	2/2	3.74s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.457 प्रतिसाद वेळ (सरासरी) 3.74s
#99	Claude Opus 4.7 none	Anthropic	10.0	6.6	$0.505	2/2	1.46s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.505 प्रतिसाद वेळ (सरासरी) 1.46s
#100	Gemma 4 26B A4B medium	Google	10.0	6.6	$0.089	2/2	17.5s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.089 प्रतिसाद वेळ (सरासरी) 17.5s
#101	GLM 5.2 none	Z.ai	9.8	6.6	$0.128	2/2	3.84s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.128 प्रतिसाद वेळ (सरासरी) 3.84s
#103	Qwen3.6 Max Preview none	Qwen	9.8	6.6	$0.231	2/2	1.40s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.231 प्रतिसाद वेळ (सरासरी) 1.40s
#104	Gemini 3.5 Flash-Lite medium	Google	9.8	6.5	$0.369	2/2	1.59s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.369 प्रतिसाद वेळ (सरासरी) 1.59s
#105	Qwen3.6 27B medium	Qwen	10.0	6.5	$0.779	2/2	38.0s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.779 प्रतिसाद वेळ (सरासरी) 38.0s
#106	Hy3 preview medium	Tencent	10.0	6.5	$0.018	2/2	6.16s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.018 प्रतिसाद वेळ (सरासरी) 6.16s

सूचनांचे पालन क्रमवारी

मॉडेल फिल्टर करा

सूचनांचे पालन स्कोअर नुसार शीर्ष मॉडेल्स

सूचनांचे पालन स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स