सूचनांचे पालन x चुकीचे उत्तर क्रमवारी

सूचनांचे पालन मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील.

दाखवलेली मॉडेल्स

एकूण अपयशे

सर्वाधिक प्रभावित मॉडेल

LongCat 2.0 1

अयशस्वी होण्याची कारणे

चुकीचे उत्तर61 सूचनांचे पालन केले नाही18 अतिरिक्त फॉरमॅटिंग3 उत्तर नाही2 API त्रुटी1 वेळ संपला1

श्रेणी

डोमेन-विशिष्ट412 अँटी-एआय युक्त्या293 कोडिंग252 कोडी सोडवणे201 सामान्य ज्ञान168 संयुक्त68 सूचनांचे पालन61 Samanya Buddhimatta59 डेटा पार्सिंग आणि निष्कर्षण41 टूल कॉलिंग3

61/61

क्रमांक	मॉडेल	कंपनी	चुकीचे उत्तर संख्या	श्रेणी स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#126	Qwen3.5 Plus 2026-04-20 none	Qwen	1	6.2	$0.122	1/2	1.17s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.122 प्रतिसाद वेळ (सरासरी) 1.17s
#127	Qwen3.5-35B-A3B none	Qwen	1	6.3	$0.106	1/2	809ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.106 प्रतिसाद वेळ (सरासरी) 809ms
#136	GPT-5.4 Mini none	OpenAI	1	6.3	$0.095	1/2	728ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.095 प्रतिसाद वेळ (सरासरी) 728ms
#138	Kimi K2.6 none	Moonshot AI	1	6.5	$0.184	1/2	1.64s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.184 प्रतिसाद वेळ (सरासरी) 1.64s
#139	GPT-5.4 none	OpenAI	1	6.5	$0.397	1/2	1.07s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.397 प्रतिसाद वेळ (सरासरी) 1.07s
#142	Qwen3.5-122B-A10B none	Qwen	1	6.3	$0.247	1/2	513ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.247 प्रतिसाद वेळ (सरासरी) 513ms
#145	GLM 5V Turbo none	Z.ai	1	6.5	$0.052	1/2	1.97s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.052 प्रतिसाद वेळ (सरासरी) 1.97s
#146	Owl Alpha medium	Openrouter	1	6.5	$0.000	1/2	10.2s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 10.2s
#147	Mimo V2 PRO none	Xiaomi	1	6.5	$0.045	1/2	2.51s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.045 प्रतिसाद वेळ (सरासरी) 2.51s
#148	Owl Alpha none	Openrouter	1	6.4	$0.000	1/2	2.63s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 2.63s
#152	Qwen3.6 27B none	Qwen	1	6.2	$0.087	1/2	1.92s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.087 प्रतिसाद वेळ (सरासरी) 1.92s
#154	MiMo-V2.5-Pro none	Xiaomi	1	6.4	$0.068	1/2	1.03s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.068 प्रतिसाद वेळ (सरासरी) 1.03s
#155	Kimi K2.5 none	Moonshot AI	1	6.5	$0.127	1/2	2.67s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.127 प्रतिसाद वेळ (सरासरी) 2.67s
#156	Gemma 4 26B A4B none	Google	1	6.3	$0.015	1/2	690ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.015 प्रतिसाद वेळ (सरासरी) 690ms
#157	Mimo V2 Omni none	Xiaomi	1	6.5	$0.021	1/2	4.26s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.021 प्रतिसाद वेळ (सरासरी) 4.26s

←

1 2 3 4 5

→

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स

सूचनांचे पालन: चुकीचे उत्तर

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स