कोडी सोडवणे x सूचनांचे पालन केले नाही क्रमवारी

कोडी सोडवणे मध्ये कोणत्या AI मॉडेल्सना सूचनांचे पालन केले नाही येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील. क्रम लावा: बरोबर चाचण्या ↑.

दाखवलेली मॉडेल्स

एकूण अपयशे

सर्वाधिक प्रभावित मॉडेल

GPT-5.4 Nano 1

अयशस्वी होण्याची कारणे

चुकीचे उत्तर201 सूचनांचे पालन केले नाही90 API त्रुटी12 अतिरिक्त फॉरमॅटिंग8 वेळ संपला5 उत्तर नाही3

श्रेणी

कोडी सोडवणे90 Samanya Buddhimatta78 अँटी-एआय युक्त्या33 सूचनांचे पालन18 कोडिंग16 टूल कॉलिंग8 डोमेन-विशिष्ट1 संयुक्त1

86/86

क्रमांक	मॉडेल	कंपनी	सूचनांचे पालन केले नाही संख्या	श्रेणी स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#53	GPT-5.4 Nano medium	OpenAI	1	4.1	$0.138	0/3	3.79s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.138 प्रतिसाद वेळ (सरासरी) 3.79s
#91	LongCat 2.0 low	Meituan	1	3.1	$0.391	0/3	8.15s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.391 प्रतिसाद वेळ (सरासरी) 8.15s
#97	LongCat 2.0 high	Meituan	1	3.1	$0.469	0/3	9.18s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.469 प्रतिसाद वेळ (सरासरी) 9.18s
#124	Qwen3.6 Flash none	Qwen	1	3.5	$0.062	0/3	1.21s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.062 प्रतिसाद वेळ (सरासरी) 1.21s
#127	Qwen3.5-35B-A3B none	Qwen	1	3.7	$0.106	0/3	1.35s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.106 प्रतिसाद वेळ (सरासरी) 1.35s
#138	Kimi K2.6 none	Moonshot AI	1	3.1	$0.184	0/3	1.40s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.184 प्रतिसाद वेळ (सरासरी) 1.40s
#140	Nemotron 3 Super medium	NVIDIA	1	3.0	$0.050	0/3	3.15s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.050 प्रतिसाद वेळ (सरासरी) 3.15s
#142	Qwen3.5-122B-A10B none	Qwen	1	3.8	$0.247	0/3	1.00s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.247 प्रतिसाद वेळ (सरासरी) 1.00s
#150	DeepSeek V4 Flash none	DeepSeek	1	3.1	$0.044	0/3	23.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.044 प्रतिसाद वेळ (सरासरी) 23.7s
#158	KAT-Coder-Air V2.5 low	Kwaipilot	1	3.1	$0.041	0/3	1.57s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.041 प्रतिसाद वेळ (सरासरी) 1.57s
#161	Qwen3.6 35B A3B none	Qwen	2	3.2	$0.061	0/3	1.07s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.061 प्रतिसाद वेळ (सरासरी) 1.07s
#162	Ling-2.6-1T none	Inclusionai	1	3.1	$0.016	0/3	5.36s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.016 प्रतिसाद वेळ (सरासरी) 5.36s
#165	Mistral Small 4 none	Mistral	1	3.1	$0.022	0/3	399ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.022 प्रतिसाद वेळ (सरासरी) 399ms
#167	Mistral Small 4 medium	Mistral	1	3.4	$0.096	0/3	2.17s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.096 प्रतिसाद वेळ (सरासरी) 2.17s
#169	Qwen3.5-9B none	Qwen	1	3.2	$0.021	0/3	621ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.021 प्रतिसाद वेळ (सरासरी) 621ms

1 2 3 4 5 6

→

मॉडेल फिल्टर करा

सूचनांचे पालन केले नाही संख्या नुसार शीर्ष मॉडेल्स

सूचनांचे पालन केले नाही संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स

कोडी सोडवणे: सूचनांचे पालन केले नाही

मॉडेल फिल्टर करा

सूचनांचे पालन केले नाही संख्या नुसार शीर्ष मॉडेल्स

सूचनांचे पालन केले नाही संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स