कोडिंग x चुकीचे उत्तर क्रमवारी

AI BENCHY श्रेणी अपयशे

कोडिंग मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील.

दाखवलेली मॉडेल्स

एकूण अपयशे

230

सर्वाधिक प्रभावित मॉडेल

Qwen3.6 Flash 3

अयशस्वी होण्याची कारणे

चुकीचे उत्तर230 API त्रुटी43 वेळ संपला23 उत्तर नाही18 सूचनांचे पालन केले नाही16 अतिरिक्त फॉरमॅटिंग12

श्रेणी

डोमेन-विशिष्ट367 अँटी-एआय युक्त्या270 कोडिंग230 कोडी सोडवणे172 सामान्य ज्ञान149 संयुक्त58 सूचनांचे पालन56 Samanya Buddhimatta49 डेटा पार्सिंग आणि निष्कर्षण36 टूल कॉलिंग3

134/134

क्रमांक	मॉडेल	कंपनी	चुकीचे उत्तर संख्या	श्रेणी स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#59	Qwen3.6 Flash medium	Qwen	3	5.0	$0.288	0/3	42.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.288 प्रतिसाद वेळ (सरासरी) 42.9s
#115	Qwen3.6 Max Preview none	Qwen	3	3.8	$0.075	0/3	3.12s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.075 प्रतिसाद वेळ (सरासरी) 3.12s
#117	GLM 5 none	Z.ai	3	4.0	$0.027	0/3	5.12s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.027 प्रतिसाद वेळ (सरासरी) 5.12s
#122	Qwen3.5 Plus 2026-02-15 none	Qwen	3	4.3	$0.016	0/3	2.05s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.016 प्रतिसाद वेळ (सरासरी) 2.05s
#123	North Mini Code medium	Cohere	3	4.5	$0.000	0/3	320.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 320.4s
#131	Claude Sonnet 5 none	Anthropic	3	4.6	$0.287	0/3	3.67s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.287 प्रतिसाद वेळ (सरासरी) 3.67s
#133	GLM 5.1 none	Z.ai	3	3.9	$0.057	0/3	4.96s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.057 प्रतिसाद वेळ (सरासरी) 4.96s
#134	DeepSeek V4 Flash none	DeepSeek	3	4.2	$0.007	0/3	17.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.007 प्रतिसाद वेळ (सरासरी) 17.1s
#140	GLM 5 Turbo none	Z.ai	3	3.9	$0.047	0/3	2.41s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.047 प्रतिसाद वेळ (सरासरी) 2.41s
#141	Laguna XS 2.1 none	Poolside	3	4.3	$0.003	0/3	623ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.003 प्रतिसाद वेळ (सरासरी) 623ms
#142	GPT-5.6 Luna none	OpenAI	3	3.8	$0.047	0/3	980ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.047 प्रतिसाद वेळ (सरासरी) 980ms
#144	Qwen3.5-122B-A10B none	Qwen	3	3.7	$0.020	0/3	2.77s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.020 प्रतिसाद वेळ (सरासरी) 2.77s
#148	Mistral Small 4 none	Mistral	3	3.7	$0.007	0/3	901ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.007 प्रतिसाद वेळ (सरासरी) 901ms
#149	Qwen3 Coder Next none	Qwen	3	4.6	$0.009	0/3	2.22s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.009 प्रतिसाद वेळ (सरासरी) 2.22s
#150	North Mini Code none	Cohere	3	3.9	$0.000	0/3	22.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 22.0s

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स

कोडिंग: चुकीचे उत्तर

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स