कोडी सोडवणे x चुकीचे उत्तर क्रमवारी

कोडी सोडवणे मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↓.

दाखवलेली मॉडेल्स

एकूण अपयशे

201

सर्वाधिक प्रभावित मॉडेल

Qwen3.6 27B 1

अयशस्वी होण्याची कारणे

चुकीचे उत्तर201 सूचनांचे पालन केले नाही90 API त्रुटी12 अतिरिक्त फॉरमॅटिंग8 वेळ संपला5 उत्तर नाही3

श्रेणी

डोमेन-विशिष्ट412 अँटी-एआय युक्त्या293 कोडिंग252 कोडी सोडवणे201 सामान्य ज्ञान168 संयुक्त68 सूचनांचे पालन61 Samanya Buddhimatta59 डेटा पार्सिंग आणि निष्कर्षण41 टूल कॉलिंग3

142/142

क्रमांक	मॉडेल	कंपनी	चुकीचे उत्तर संख्या	श्रेणी स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#99	Qwen3.6 27B medium	Qwen	1	7.7	$0.779	2/3	61.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.779 प्रतिसाद वेळ (सरासरी) 61.1s
#46	DeepSeek V4 Pro high	DeepSeek	1	6.9	$0.200	1/3	56.8s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.200 प्रतिसाद वेळ (सरासरी) 56.8s
#47	MiniMax M3 medium	Minimax	1	7.9	$0.286	2/3	49.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.286 प्रतिसाद वेळ (सरासरी) 49.9s
#77	Kimi K2.5 medium	Moonshot AI	1	5.3	$0.600	1/3	43.2s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.600 प्रतिसाद वेळ (सरासरी) 43.2s
#52	Kimi K2.7 Code medium	Moonshot AI	1	5.9	$0.751	1/3	41.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.751 प्रतिसाद वेळ (सरासरी) 41.0s
#76	DeepSeek V3.2 medium	DeepSeek	1	7.0	$0.078	1/3	37.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.078 प्रतिसाद वेळ (सरासरी) 37.7s
#31	GLM 5.2 high	Z.ai	1	6.0	$0.970	1/3	33.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.970 प्रतिसाद वेळ (सरासरी) 33.7s
#204	Qwen3.5-9B medium	Qwen	1	3.0	$0.036	0/3	32.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.036 प्रतिसाद वेळ (सरासरी) 32.3s
#80	Seed-2.0-Mini medium	Bytedance Seed	1	8.2	$0.101	2/3	31.8s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.101 प्रतिसाद वेळ (सरासरी) 31.8s
#74	GLM 5.1 medium	Z.ai	1	8.2	$0.535	2/3	31.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.535 प्रतिसाद वेळ (सरासरी) 31.6s
#68	Kimi K2.6 medium	Moonshot AI	1	6.0	$1.036	1/3	25.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $1.036 प्रतिसाद वेळ (सरासरी) 25.1s
#172	MiniMax M2.7 medium	Minimax	1	5.9	$0.163	1/3	24.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.163 प्रतिसाद वेळ (सरासरी) 24.9s
#171	North Mini Code none	Cohere	1	3.5	$0.000	0/3	24.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 24.4s
#166	Qwen3 Coder Next none	Qwen	3	3.0	$0.025	0/3	24.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.025 प्रतिसाद वेळ (सरासरी) 24.3s
#150	DeepSeek V4 Flash none	DeepSeek	1	3.1	$0.044	0/3	23.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.044 प्रतिसाद वेळ (सरासरी) 23.7s

1 2 10

→

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स

कोडी सोडवणे: चुकीचे उत्तर

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स