कोडी सोडवणे x चुकीचे उत्तर क्रमवारी

कोडी सोडवणे मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील.

दाखवलेली मॉडेल्स

एकूण अपयशे

201

सर्वाधिक प्रभावित मॉडेल

Qwen3.5-Flash 3

अयशस्वी होण्याची कारणे

चुकीचे उत्तर201 सूचनांचे पालन केले नाही90 API त्रुटी12 अतिरिक्त फॉरमॅटिंग8 वेळ संपला5 उत्तर नाही3

श्रेणी

डोमेन-विशिष्ट412 अँटी-एआय युक्त्या293 कोडिंग252 कोडी सोडवणे201 सामान्य ज्ञान168 संयुक्त68 सूचनांचे पालन61 Samanya Buddhimatta59 डेटा पार्सिंग आणि निष्कर्षण41 टूल कॉलिंग3

142/142

क्रमांक	मॉडेल	कंपनी	चुकीचे उत्तर संख्या	श्रेणी स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#67	Step 3.7 Flash low	Stepfun	2	5.5	$0.454	1/3	1.84s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.454 प्रतिसाद वेळ (सरासरी) 1.84s
#81	KAT-Coder-Pro V2.5 medium	Kwaipilot	2	5.9	$0.467	1/3	3.20s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.467 प्रतिसाद वेळ (सरासरी) 3.20s
#86	Step 3.7 Flash high	Stepfun	2	5.3	$1.207	1/3	10.2s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $1.207 प्रतिसाद वेळ (सरासरी) 10.2s
#91	LongCat 2.0 low	Meituan	2	3.1	$0.391	0/3	8.15s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.391 प्रतिसाद वेळ (सरासरी) 8.15s
#97	LongCat 2.0 high	Meituan	2	3.1	$0.469	0/3	9.18s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.469 प्रतिसाद वेळ (सरासरी) 9.18s
#102	Laguna XS 2.1 medium	Poolside	2	5.3	$0.068	1/3	3.43s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.068 प्रतिसाद वेळ (सरासरी) 3.43s
#111	LongCat 2.0 none	Meituan	2	4.0	$0.044	0/3	2.74s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.044 प्रतिसाद वेळ (सरासरी) 2.74s
#116	Seed-2.0-Lite none	Bytedance Seed	2	5.3	$0.066	1/3	2.78s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.066 प्रतिसाद वेळ (सरासरी) 2.78s
#124	Qwen3.6 Flash none	Qwen	2	3.5	$0.062	0/3	1.21s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.062 प्रतिसाद वेळ (सरासरी) 1.21s
#126	Qwen3.5 Plus 2026-04-20 none	Qwen	2	6.7	$0.122	1/3	1.97s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.122 प्रतिसाद वेळ (सरासरी) 1.97s
#127	Qwen3.5-35B-A3B none	Qwen	2	3.7	$0.106	0/3	1.35s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.106 प्रतिसाद वेळ (सरासरी) 1.35s
#132	GPT-5.6 Terra none	OpenAI	2	5.3	$0.349	1/3	1.23s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.349 प्रतिसाद वेळ (सरासरी) 1.23s
#138	Kimi K2.6 none	Moonshot AI	2	3.1	$0.184	0/3	1.40s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.184 प्रतिसाद वेळ (सरासरी) 1.40s
#140	Nemotron 3 Super medium	NVIDIA	2	3.0	$0.050	0/3	3.15s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.050 प्रतिसाद वेळ (सरासरी) 3.15s
#142	Qwen3.5-122B-A10B none	Qwen	2	3.8	$0.247	0/3	1.00s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.247 प्रतिसाद वेळ (सरासरी) 1.00s

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स

कोडी सोडवणे: चुकीचे उत्तर

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स