सूचनांचे पालन x चुकीचे उत्तर क्रमवारी

सूचनांचे पालन मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील.

दाखवलेली मॉडेल्स

एकूण अपयशे

सर्वाधिक प्रभावित मॉडेल

LongCat 2.0 1

अयशस्वी होण्याची कारणे

चुकीचे उत्तर61 सूचनांचे पालन केले नाही18 अतिरिक्त फॉरमॅटिंग3 उत्तर नाही2 API त्रुटी1 वेळ संपला1

श्रेणी

डोमेन-विशिष्ट412 अँटी-एआय युक्त्या293 कोडिंग252 कोडी सोडवणे201 सामान्य ज्ञान168 संयुक्त68 सूचनांचे पालन61 Samanya Buddhimatta59 डेटा पार्सिंग आणि निष्कर्षण41 टूल कॉलिंग3

61/61

क्रमांक	मॉडेल	कंपनी	चुकीचे उत्तर संख्या	श्रेणी स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#177	Nemotron 3 Super none	NVIDIA	1	6.3	$0.008	1/2	804ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 804ms
#180	GPT-5.4 Nano none	OpenAI	1	6.3	$0.041	1/2	784ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.041 प्रतिसाद वेळ (सरासरी) 784ms
#183	Trinity Large Preview none	Arcee AI	1	3.5	$0.008	0/2	822ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 822ms
#187	Qwen3 Coder Next medium	Qwen	1	6.3	$0.032	1/2	7.49s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.032 प्रतिसाद वेळ (सरासरी) 7.49s
#189	Mercury 2 none	Inception	1	6.5	$0.030	1/2	551ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.030 प्रतिसाद वेळ (सरासरी) 551ms
#191	Grok 4.20 Beta none	X AI	1	6.3	$0.087	1/2	649ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.087 प्रतिसाद वेळ (सरासरी) 649ms
#192	Laguna M.1 none	Poolside	1	6.3	$0.009	1/2	683ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.009 प्रतिसाद वेळ (सरासरी) 683ms
#194	GLM 4.7 Flash medium	Z.ai	1	6.2	$0.166	1/2	2.97s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.166 प्रतिसाद वेळ (सरासरी) 2.97s
#196	Hunter Alpha none	OpenRouter	1	6.4	$0.000	1/2	2.82s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 2.82s
#197	Grok 4.20 none	X AI	1	6.3	$0.057	1/2	445ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.057 प्रतिसाद वेळ (सरासरी) 445ms
#200	MiMo-V2-Flash none	Xiaomi	1	6.5	$0.025	1/2	857ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.025 प्रतिसाद वेळ (सरासरी) 857ms
#201	Granite 4.1 8B none	IBM Granite	1	3.6	$0.007	0/2	344ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.007 प्रतिसाद वेळ (सरासरी) 344ms
#203	Grok 4.1 Fast none	X AI	1	3.0	$0.008	0/2	685ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 685ms
#205	Laguna Xs.2 none	Poolside	1	6.5	$0.004	1/2	439ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.004 प्रतिसाद वेळ (सरासरी) 439ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1	4.8	$0.000	0/2	541ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 541ms

←

1 2 3 4 5

→

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स

सूचनांचे पालन: चुकीचे उत्तर

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स