कोडिंग x चुकीचे उत्तर क्रमवारी

AI BENCHY श्रेणी अपयशे

कोडिंग मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील.

दाखवलेली मॉडेल्स

एकूण अपयशे

230

सर्वाधिक प्रभावित मॉडेल

Qwen3.6 Flash 3

अयशस्वी होण्याची कारणे

चुकीचे उत्तर230 API त्रुटी43 वेळ संपला25 उत्तर नाही18 सूचनांचे पालन केले नाही16 अतिरिक्त फॉरमॅटिंग12

श्रेणी

डोमेन-विशिष्ट368 अँटी-एआय युक्त्या270 कोडिंग230 कोडी सोडवणे173 सामान्य ज्ञान150 संयुक्त58 सूचनांचे पालन56 Samanya Buddhimatta49 डेटा पार्सिंग आणि निष्कर्षण36 टूल कॉलिंग3

134/134

क्रमांक	मॉडेल	कंपनी	चुकीचे उत्तर संख्या	श्रेणी स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#121	Qwen3.5-27B none	Qwen	2	5.8	$0.015	1/3	1.80s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.015 प्रतिसाद वेळ (सरासरी) 1.80s
#122	GLM 5V Turbo none	Z.ai	2	5.5	$0.052	1/3	3.13s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.052 प्रतिसाद वेळ (सरासरी) 3.13s
#129	GPT-5.4 none	OpenAI	2	5.5	$0.122	1/3	1.62s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.122 प्रतिसाद वेळ (सरासरी) 1.62s
#136	Kimi K2.5 none	Moonshot AI	2	5.5	$0.027	1/3	24.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.027 प्रतिसाद वेळ (सरासरी) 24.6s
#137	MiMo-V2.5-Pro none	Xiaomi	2	4.3	$0.017	0/3	1.41s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.017 प्रतिसाद वेळ (सरासरी) 1.41s
#138	Qwen3.6 27B none	Qwen	2	5.5	$0.025	1/3	4.16s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.025 प्रतिसाद वेळ (सरासरी) 4.16s
#139	Gemma 4 26B A4B none	Google	2	3.7	$0.004	0/3	4.16s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.004 प्रतिसाद वेळ (सरासरी) 4.16s
#140	Qwen3.5 Plus 2026-04-20 none	Qwen	2	3.9	$0.032	0/3	1.69s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.032 प्रतिसाद वेळ (सरासरी) 1.69s
#144	GPT-5.4 Mini none	OpenAI	2	5.5	$0.038	1/3	913ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.038 प्रतिसाद वेळ (सरासरी) 913ms
#146	DeepSeek V3.2 none	DeepSeek	2	3.1	$0.016	0/3	14.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.016 प्रतिसाद वेळ (सरासरी) 14.5s
#148	Qwen3.6 35B A3B none	Qwen	2	5.5	$0.031	1/3	8.77s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.031 प्रतिसाद वेळ (सरासरी) 8.77s
#154	MiMo-V2.5 none	Xiaomi	2	5.5	$0.006	1/3	3.24s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.006 प्रतिसाद वेळ (सरासरी) 3.24s
#168	Qwen3 Coder Next medium	Qwen	2	3.7	$0.008	0/3	924ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 924ms
#179	MiMo-V2-Flash none	Xiaomi	2	4.3	$0.025	0/3	2.64s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.025 प्रतिसाद वेळ (सरासरी) 2.64s
#2	Gemini 3 Flash Preview medium	Google	1	8.6	$0.667	2/3	84.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.667 प्रतिसाद वेळ (सरासरी) 84.4s

←

1 4 5 6 9

→

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स

कोडिंग: चुकीचे उत्तर

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स