सूचनांचे पालन मॉडेल क्रमवारी

सूचनांचे पालन मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↓.

दाखवलेली मॉडेल्स

सरासरी सूचनांचे पालन स्कोअर

8.5

सर्वोत्तम मॉडेल

Kimi K2.5 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह61 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह18 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2 अयशस्वी होण्याचे कारण API त्रुटी सह1 अयशस्वी होण्याचे कारण वेळ संपला सह1

210/210

क्रमांक	मॉडेल	कंपनी	सूचनांचे पालन स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#77	Kimi K2.5 medium	Moonshot AI	10.0	7.0	$0.600	2/2	92.5s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.600 प्रतिसाद वेळ (सरासरी) 92.5s
#163	Gemini 3.1 Flash Lite Preview high	Google	9.8	5.3	$2.310	2/2	64.0s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $2.310 प्रतिसाद वेळ (सरासरी) 64.0s
#114	Qwen3.5-Flash medium	Qwen	10.0	6.2	$0.139	2/2	63.5s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.139 प्रतिसाद वेळ (सरासरी) 63.5s
#99	Qwen3.6 27B medium	Qwen	10.0	6.5	$0.779	2/2	38.0s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.779 प्रतिसाद वेळ (सरासरी) 38.0s
#76	DeepSeek V3.2 medium	DeepSeek	10.0	7.0	$0.078	2/2	35.8s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.078 प्रतिसाद वेळ (सरासरी) 35.8s
#135	Hy3 preview high	Tencent	10.0	5.9	$0.048	2/2	34.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.048 प्रतिसाद वेळ (सरासरी) 34.4s
#57	Qwen3.5 Plus 2026-02-15 medium	Qwen	10.0	7.5	$0.437	2/2	31.9s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.437 प्रतिसाद वेळ (सरासरी) 31.9s
#171	North Mini Code none	Cohere	6.5	5.1	$0.000	1/2	30.7s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 30.7s
#179	Ring-2.6-1T none	Inclusionai	9.8	4.8	$0.026	2/2	27.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.026 प्रतिसाद वेळ (सरासरी) 27.4s
#119	Qwen3.5-35B-A3B medium	Qwen	10.0	6.2	$0.837	2/2	24.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.837 प्रतिसाद वेळ (सरासरी) 24.4s
#19	Qwen3.6 Max Preview medium	Qwen	10.0	8.4	$1.143	2/2	24.3s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.143 प्रतिसाद वेळ (सरासरी) 24.3s
#143	Gemini 3.1 Flash Lite high	Google	7.3	5.6	$2.044	1/2	23.3s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $2.044 प्रतिसाद वेळ (सरासरी) 23.3s
#70	Qwen3.5 Plus 2026-04-20 medium	Qwen	10.0	7.2	$0.317	2/2	20.2s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.317 प्रतिसाद वेळ (सरासरी) 20.2s
#58	Qwen3.5-27B medium	Qwen	10.0	7.4	$1.627	2/2	19.7s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.627 प्रतिसाद वेळ (सरासरी) 19.7s
#73	Grok 4.3 medium	X AI	9.8	7.1	$0.779	2/2	18.6s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.779 प्रतिसाद वेळ (सरासरी) 18.6s

1 2 14

→

सूचनांचे पालन क्रमवारी

मॉडेल फिल्टर करा

सूचनांचे पालन स्कोअर नुसार शीर्ष मॉडेल्स

सूचनांचे पालन स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स