कोडी सोडवणे x सूचनांचे पालन केले नाही क्रमवारी

कोडी सोडवणे मध्ये कोणत्या AI मॉडेल्सना सूचनांचे पालन केले नाही येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील. क्रम लावा: अपयशांची संख्या ↑.

दाखवलेली मॉडेल्स

एकूण अपयशे

सर्वाधिक प्रभावित मॉडेल

GPT-5.3-Codex 1

अयशस्वी होण्याची कारणे

चुकीचे उत्तर201 सूचनांचे पालन केले नाही90 API त्रुटी12 अतिरिक्त फॉरमॅटिंग8 वेळ संपला5 उत्तर नाही3

श्रेणी

कोडी सोडवणे90 Samanya Buddhimatta78 अँटी-एआय युक्त्या33 सूचनांचे पालन18 कोडिंग16 टूल कॉलिंग8 डोमेन-विशिष्ट1 संयुक्त1

86/86

क्रमांक	मॉडेल	कंपनी	सूचनांचे पालन केले नाही संख्या	श्रेणी स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#13	GPT-5.3-Codex medium	OpenAI	1	9.0	$0.920	2/3	5.05s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.920 प्रतिसाद वेळ (सरासरी) 5.05s
#16	Muse Spark 1.1 medium	Meta	1	7.9	$1.357	2/3	42.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $1.357 प्रतिसाद वेळ (सरासरी) 42.5s
#18	GPT-5.4 medium	OpenAI	1	8.2	$1.533	2/3	9.14s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $1.533 प्रतिसाद वेळ (सरासरी) 9.14s
#21	GPT-5.2 medium	OpenAI	1	7.5	$0.951	2/3	5.80s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.951 प्रतिसाद वेळ (सरासरी) 5.80s
#24	Muse Spark 1.1 low	Meta	1	8.3	$0.647	2/3	6.60s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.647 प्रतिसाद वेळ (सरासरी) 6.60s
#26	GPT-5 Mini medium	OpenAI	1	5.6	$0.237	1/3	15.2s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.237 प्रतिसाद वेळ (सरासरी) 15.2s
#28	Inkling high	Thinkingmachines	1	6.9	$1.006	1/3	10.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $1.006 प्रतिसाद वेळ (सरासरी) 10.7s
#31	GLM 5.2 high	Z.ai	1	6.0	$0.970	1/3	33.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.970 प्रतिसाद वेळ (सरासरी) 33.7s
#35	Seed-2.0-Lite medium	Bytedance Seed	1	9.0	$0.234	2/3	10.2s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.234 प्रतिसाद वेळ (सरासरी) 10.2s
#45	DeepSeek V4 Flash high	DeepSeek	1	8.2	$0.042	2/3	26.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.042 प्रतिसाद वेळ (सरासरी) 26.1s
#46	DeepSeek V4 Pro high	DeepSeek	1	6.9	$0.200	1/3	56.8s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.200 प्रतिसाद वेळ (सरासरी) 56.8s
#49	GLM 5 Turbo medium	Z.ai	1	8.7	$0.323	2/3	5.23s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.323 प्रतिसाद वेळ (सरासरी) 5.23s
#52	Kimi K2.7 Code medium	Moonshot AI	1	5.9	$0.751	1/3	41.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.751 प्रतिसाद वेळ (सरासरी) 41.0s
#53	GPT-5.4 Nano medium	OpenAI	1	4.1	$0.138	0/3	3.79s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.138 प्रतिसाद वेळ (सरासरी) 3.79s
#56	GPT-5.4 Mini medium	OpenAI	1	7.8	$0.756	2/3	4.37s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.756 प्रतिसाद वेळ (सरासरी) 4.37s

1 2 3 4 5 6

→

मॉडेल फिल्टर करा

सूचनांचे पालन केले नाही संख्या नुसार शीर्ष मॉडेल्स

सूचनांचे पालन केले नाही संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स

कोडी सोडवणे: सूचनांचे पालन केले नाही

मॉडेल फिल्टर करा

सूचनांचे पालन केले नाही संख्या नुसार शीर्ष मॉडेल्स

सूचनांचे पालन केले नाही संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स