सूचनांचे पालन x चुकीचे उत्तर क्रमवारी

सूचनांचे पालन मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील.

दाखवलेली मॉडेल्स

एकूण अपयशे

सर्वाधिक प्रभावित मॉडेल

LongCat 2.0 1

अयशस्वी होण्याची कारणे

चुकीचे उत्तर61 सूचनांचे पालन केले नाही18 अतिरिक्त फॉरमॅटिंग3 उत्तर नाही2 API त्रुटी1 वेळ संपला1

श्रेणी

डोमेन-विशिष्ट412 अँटी-एआय युक्त्या293 कोडिंग252 कोडी सोडवणे201 सामान्य ज्ञान168 संयुक्त68 सूचनांचे पालन61 Samanya Buddhimatta59 डेटा पार्सिंग आणि निष्कर्षण41 टूल कॉलिंग3

61/61

क्रमांक	मॉडेल	कंपनी	चुकीचे उत्तर संख्या	श्रेणी स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#159	GPT-5.6 Luna none	OpenAI	1	7.1	$0.142	1/2	1.23s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.142 प्रतिसाद वेळ (सरासरी) 1.23s
#160	Laguna XS 2.1 none	Poolside	1	3.8	$0.008	0/2	364ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 364ms
#161	Qwen3.6 35B A3B none	Qwen	1	6.2	$0.061	1/2	1.86s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.061 प्रतिसाद वेळ (सरासरी) 1.86s
#162	Ling-2.6-1T none	Inclusionai	1	6.4	$0.016	1/2	5.36s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.016 प्रतिसाद वेळ (सरासरी) 5.36s
#164	Inkling none	Thinkingmachines	1	6.3	$0.147	1/2	1.72s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.147 प्रतिसाद वेळ (सरासरी) 1.72s
#165	Mistral Small 4 none	Mistral	1	6.5	$0.022	1/2	380ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.022 प्रतिसाद वेळ (सरासरी) 380ms
#166	Qwen3 Coder Next none	Qwen	1	6.3	$0.025	1/2	7.78s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.025 प्रतिसाद वेळ (सरासरी) 7.78s
#167	Mistral Small 4 medium	Mistral	1	7.3	$0.096	1/2	1.38s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.096 प्रतिसाद वेळ (सरासरी) 1.38s
#168	MiMo-V2.5 none	Xiaomi	1	6.5	$0.025	1/2	751ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.025 प्रतिसाद वेळ (सरासरी) 751ms
#169	Qwen3.5-9B none	Qwen	1	6.5	$0.021	1/2	514ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.021 प्रतिसाद वेळ (सरासरी) 514ms
#170	GLM 5 Turbo none	Z.ai	1	6.5	$0.047	1/2	2.13s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.047 प्रतिसाद वेळ (सरासरी) 2.13s
#171	North Mini Code none	Cohere	1	6.5	$0.000	1/2	30.7s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 30.7s
#172	MiniMax M2.7 medium	Minimax	1	3.8	$0.163	0/2	12.8s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.163 प्रतिसाद वेळ (सरासरी) 12.8s
#174	GPT-4o-mini none	OpenAI	1	6.3	$0.010	1/2	1.11s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.010 प्रतिसाद वेळ (सरासरी) 1.11s
#176	GLM 4.7 Flash none	Z.ai	1	6.5	$0.016	1/2	888ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.016 प्रतिसाद वेळ (सरासरी) 888ms

←

1 2 3 4 5

→

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स

सूचनांचे पालन: चुकीचे उत्तर

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स