कोडी सोडवणे x चुकीचे उत्तर क्रमवारी

कोडी सोडवणे मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील.

दाखवलेली मॉडेल्स

एकूण अपयशे

201

सर्वाधिक प्रभावित मॉडेल

Qwen3.5-Flash 3

अयशस्वी होण्याची कारणे

चुकीचे उत्तर201 सूचनांचे पालन केले नाही90 API त्रुटी12 अतिरिक्त फॉरमॅटिंग8 वेळ संपला5 उत्तर नाही3

श्रेणी

डोमेन-विशिष्ट412 अँटी-एआय युक्त्या293 कोडिंग252 कोडी सोडवणे201 सामान्य ज्ञान168 संयुक्त68 सूचनांचे पालन61 Samanya Buddhimatta59 डेटा पार्सिंग आणि निष्कर्षण41 टूल कॉलिंग3

142/142

क्रमांक	मॉडेल	कंपनी	चुकीचे उत्तर संख्या	श्रेणी स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#125	Qwen3.5-Flash none	Qwen	3	3.1	$0.073	0/3	10.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.073 प्रतिसाद वेळ (सरासरी) 10.9s
#137	North Mini Code medium	Cohere	3	3.3	$0.000	0/3	19.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 19.7s
#144	KAT-Coder-Air V2.5 high	Kwaipilot	3	3.5	$0.077	0/3	2.47s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.077 प्रतिसाद वेळ (सरासरी) 2.47s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	3	3.6	$0.048	0/3	1.87s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.048 प्रतिसाद वेळ (सरासरी) 1.87s
#155	Kimi K2.5 none	Moonshot AI	3	3.0	$0.127	0/3	4.04s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.127 प्रतिसाद वेळ (सरासरी) 4.04s
#160	Laguna XS 2.1 none	Poolside	3	3.0	$0.008	0/3	1.01s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 1.01s
#166	Qwen3 Coder Next none	Qwen	3	3.0	$0.025	0/3	24.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.025 प्रतिसाद वेळ (सरासरी) 24.3s
#182	KAT-Coder-Air V2.5 none	Kwaipilot	3	2.9	$0.067	0/3	1.84s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.067 प्रतिसाद वेळ (सरासरी) 1.84s
#189	Mercury 2 none	Inception	3	3.1	$0.030	0/3	535ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.030 प्रतिसाद वेळ (सरासरी) 535ms
#203	Grok 4.1 Fast none	X AI	3	3.0	$0.008	0/3	1.10s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 1.10s
#29	Step 3.7 Flash medium	Stepfun	2	5.7	$0.515	1/3	6.19s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.515 प्रतिसाद वेळ (सरासरी) 6.19s
#51	Nemotron 3 Ultra medium	NVIDIA	2	5.5	$0.774	1/3	3.54s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.774 प्रतिसाद वेळ (सरासरी) 3.54s
#53	GPT-5.4 Nano medium	OpenAI	2	4.1	$0.138	0/3	3.79s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.138 प्रतिसाद वेळ (सरासरी) 3.79s
#60	LongCat 2.0 medium	Meituan	2	5.4	$0.478	1/3	8.84s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.478 प्रतिसाद वेळ (सरासरी) 8.84s
#62	KAT-Coder-Pro V2.5 low	Kwaipilot	2	6.4	$0.387	1/3	3.11s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.387 प्रतिसाद वेळ (सरासरी) 3.11s

1 2 10

→

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स

कोडी सोडवणे: चुकीचे उत्तर

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स