सूचनांचे पालन मॉडेल क्रमवारी

सूचनांचे पालन मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा.

दाखवलेली मॉडेल्स

सरासरी सूचनांचे पालन स्कोअर

8.5

सर्वोत्तम मॉडेल

Gemini 3 Flash Preview 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह61 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह18 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2 अयशस्वी होण्याचे कारण API त्रुटी सह1 अयशस्वी होण्याचे कारण वेळ संपला सह1

210/210

क्रमांक	मॉडेल	कंपनी	सूचनांचे पालन स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#100	Hy3 preview medium	Tencent	10.0	6.5	$0.018	2/2	6.16s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.018 प्रतिसाद वेळ (सरासरी) 6.16s
#104	Gemini 3.1 Flash Lite Preview low	Google	10.0	6.5	$0.646	2/2	1.49s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.646 प्रतिसाद वेळ (सरासरी) 1.49s
#105	Gemini 3.1 Flash Lite low	Google	10.0	6.5	$0.621	2/2	1.52s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.621 प्रतिसाद वेळ (सरासरी) 1.52s
#106	Gemini 3.1 Flash Lite Preview none	Google	10.0	6.4	$0.052	2/2	1.13s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.052 प्रतिसाद वेळ (सरासरी) 1.13s
#107	Qwen3.5 Plus 2026-02-15 none	Qwen	10.0	6.4	$0.073	2/2	1.67s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.073 प्रतिसाद वेळ (सरासरी) 1.67s
#110	Gemma 4 31B medium	Google	10.0	6.3	$0.163	2/2	12.8s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.163 प्रतिसाद वेळ (सरासरी) 12.8s
#113	MiMo-V2-Flash medium	Xiaomi	10.0	6.3	$0.043	2/2	4.28s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.043 प्रतिसाद वेळ (सरासरी) 4.28s
#114	Qwen3.5-Flash medium	Qwen	10.0	6.2	$0.139	2/2	63.5s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.139 प्रतिसाद वेळ (सरासरी) 63.5s
#116	Seed-2.0-Lite none	Bytedance Seed	10.0	6.2	$0.066	2/2	1.06s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.066 प्रतिसाद वेळ (सरासरी) 1.06s
#118	Gemini 2.5 Flash none	Google	10.0	6.2	$0.017	2/2	590ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.017 प्रतिसाद वेळ (सरासरी) 590ms
#119	Qwen3.5-35B-A3B medium	Qwen	10.0	6.2	$0.837	2/2	24.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.837 प्रतिसाद वेळ (सरासरी) 24.4s
#120	Gemini 3.1 Flash Lite minimal	Google	10.0	6.1	$0.047	2/2	932ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.047 प्रतिसाद वेळ (सरासरी) 932ms
#122	Gemini 3.1 Flash Lite none	Google	10.0	6.1	$0.046	2/2	859ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.046 प्रतिसाद वेळ (सरासरी) 859ms
#129	Nemotron 3 Ultra none	NVIDIA	10.0	6.1	$0.095	2/2	1.46s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.095 प्रतिसाद वेळ (सरासरी) 1.46s
#135	Hy3 preview high	Tencent	10.0	5.9	$0.048	2/2	34.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.048 प्रतिसाद वेळ (सरासरी) 34.4s

सूचनांचे पालन क्रमवारी

मॉडेल फिल्टर करा

सूचनांचे पालन स्कोअर नुसार शीर्ष मॉडेल्स

सूचनांचे पालन स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स