सूचनांचे पालन x चुकीचे उत्तर क्रमवारी

सूचनांचे पालन मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील.

दाखवलेली मॉडेल्स

एकूण अपयशे

सर्वाधिक प्रभावित मॉडेल

LongCat 2.0 1

अयशस्वी होण्याची कारणे

चुकीचे उत्तर61 सूचनांचे पालन केले नाही18 अतिरिक्त फॉरमॅटिंग3 उत्तर नाही2 API त्रुटी1 वेळ संपला1

श्रेणी

डोमेन-विशिष्ट412 अँटी-एआय युक्त्या293 कोडिंग252 कोडी सोडवणे201 सामान्य ज्ञान168 संयुक्त68 सूचनांचे पालन61 Samanya Buddhimatta59 डेटा पार्सिंग आणि निष्कर्षण41 टूल कॉलिंग3

61/61

क्रमांक	मॉडेल	कंपनी	चुकीचे उत्तर संख्या	श्रेणी स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#60	LongCat 2.0 medium	Meituan	1	6.5	$0.478	1/2	7.38s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.478 प्रतिसाद वेळ (सरासरी) 7.38s
#63	Claude Sonnet 4.6 none	Anthropic	1	6.5	$0.661	1/2	1.96s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.661 प्रतिसाद वेळ (सरासरी) 1.96s
#71	Qwen3.7 Plus none	Qwen	1	6.3	$0.106	1/2	929ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.106 प्रतिसाद वेळ (सरासरी) 929ms
#74	GLM 5.1 medium	Z.ai	1	6.4	$0.535	1/2	7.47s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.535 प्रतिसाद वेळ (सरासरी) 7.47s
#82	DeepSeek V4 Pro none	DeepSeek	1	6.3	$0.096	1/2	4.12s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.096 प्रतिसाद वेळ (सरासरी) 4.12s
#87	GPT-5.5 none	OpenAI	1	6.2	$0.544	1/2	1.15s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.544 प्रतिसाद वेळ (सरासरी) 1.15s
#88	Gemini 3.5 Flash minimal	Google	1	6.4	$0.300	1/2	893ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.300 प्रतिसाद वेळ (सरासरी) 893ms
#89	Gemini 3 Flash Preview none	Google	1	6.4	$0.085	1/2	1.58s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.085 प्रतिसाद वेळ (सरासरी) 1.58s
#91	LongCat 2.0 low	Meituan	1	6.5	$0.391	1/2	6.39s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.391 प्रतिसाद वेळ (सरासरी) 6.39s
#97	LongCat 2.0 high	Meituan	1	6.5	$0.469	1/2	6.96s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.469 प्रतिसाद वेळ (सरासरी) 6.96s
#103	Qwen3.5-27B none	Qwen	1	6.3	$0.090	1/2	1.03s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.090 प्रतिसाद वेळ (सरासरी) 1.03s
#111	LongCat 2.0 none	Meituan	1	6.5	$0.044	1/2	2.82s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.044 प्रतिसाद वेळ (सरासरी) 2.82s
#115	Gemma 4 31B none	Google	1	6.5	$0.035	1/2	2.84s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.035 प्रतिसाद वेळ (सरासरी) 2.84s
#124	Qwen3.6 Flash none	Qwen	1	6.3	$0.062	1/2	1.10s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.062 प्रतिसाद वेळ (सरासरी) 1.10s
#125	Qwen3.5-Flash none	Qwen	1	6.3	$0.073	1/2	8.81s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.073 प्रतिसाद वेळ (सरासरी) 8.81s

1 2 3 4 5

→

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स

सूचनांचे पालन: चुकीचे उत्तर

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स