कोडी सोडवणे x चुकीचे उत्तर क्रमवारी

कोडी सोडवणे मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील.

दाखवलेली मॉडेल्स

एकूण अपयशे

201

सर्वाधिक प्रभावित मॉडेल

Qwen3.5-Flash 3

अयशस्वी होण्याची कारणे

चुकीचे उत्तर201 सूचनांचे पालन केले नाही90 API त्रुटी12 अतिरिक्त फॉरमॅटिंग8 वेळ संपला5 उत्तर नाही3

श्रेणी

डोमेन-विशिष्ट412 अँटी-एआय युक्त्या293 कोडिंग252 कोडी सोडवणे201 सामान्य ज्ञान168 संयुक्त68 सूचनांचे पालन61 Samanya Buddhimatta59 डेटा पार्सिंग आणि निष्कर्षण41 टूल कॉलिंग3

142/142

क्रमांक	मॉडेल	कंपनी	चुकीचे उत्तर संख्या	श्रेणी स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#158	KAT-Coder-Air V2.5 low	Kwaipilot	2	3.1	$0.041	0/3	1.57s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.041 प्रतिसाद वेळ (सरासरी) 1.57s
#162	Ling-2.6-1T none	Inclusionai	2	3.1	$0.016	0/3	5.36s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.016 प्रतिसाद वेळ (सरासरी) 5.36s
#165	Mistral Small 4 none	Mistral	2	3.1	$0.022	0/3	399ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.022 प्रतिसाद वेळ (सरासरी) 399ms
#167	Mistral Small 4 medium	Mistral	2	3.4	$0.096	0/3	2.17s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.096 प्रतिसाद वेळ (सरासरी) 2.17s
#169	Qwen3.5-9B none	Qwen	2	3.2	$0.021	0/3	621ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.021 प्रतिसाद वेळ (सरासरी) 621ms
#174	GPT-4o-mini none	OpenAI	2	3.5	$0.010	0/3	1.21s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.010 प्रतिसाद वेळ (सरासरी) 1.21s
#178	Ling-2.6-flash none	Inclusionai	2	2.9	$0.002	0/3	6.51s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.002 प्रतिसाद वेळ (सरासरी) 6.51s
#183	Trinity Large Preview none	Arcee AI	2	3.6	$0.008	0/3	1.97s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 1.97s
#187	Qwen3 Coder Next medium	Qwen	2	3.0	$0.032	0/3	1.25s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.032 प्रतिसाद वेळ (सरासरी) 1.25s
#188	Cobuddy medium	Baidu	2	3.6	$0.000	0/3	12.8s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 12.8s
#192	Laguna M.1 none	Poolside	2	3.0	$0.009	0/3	891ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.009 प्रतिसाद वेळ (सरासरी) 891ms
#193	Elephant Alpha none	Openrouter	2	4.2	$0.000	0/3	807ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 807ms
#194	GLM 4.7 Flash medium	Z.ai	2	2.9	$0.166	0/3	12.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.166 प्रतिसाद वेळ (सरासरी) 12.9s
#197	Grok 4.20 none	X AI	2	5.3	$0.057	1/3	473ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.057 प्रतिसाद वेळ (सरासरी) 473ms
#199	Hy3 preview none	Tencent	2	3.1	$0.003	0/3	4.56s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.003 प्रतिसाद वेळ (सरासरी) 4.56s

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स

कोडी सोडवणे: चुकीचे उत्तर

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स