कोडिंग x चुकीचे उत्तर क्रमवारी

AI BENCHY श्रेणी अपयशे

कोडिंग मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील.

दाखवलेली मॉडेल्स

एकूण अपयशे

230

सर्वाधिक प्रभावित मॉडेल

Qwen3.6 Flash 3

अयशस्वी होण्याची कारणे

चुकीचे उत्तर230 API त्रुटी43 वेळ संपला23 उत्तर नाही18 सूचनांचे पालन केले नाही16 अतिरिक्त फॉरमॅटिंग12

श्रेणी

डोमेन-विशिष्ट367 अँटी-एआय युक्त्या270 कोडिंग230 कोडी सोडवणे172 सामान्य ज्ञान149 संयुक्त58 सूचनांचे पालन56 Samanya Buddhimatta49 डेटा पार्सिंग आणि निष्कर्षण36 टूल कॉलिंग3

134/134

क्रमांक	मॉडेल	कंपनी	चुकीचे उत्तर संख्या	श्रेणी स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#152	Mistral Small 4 medium	Mistral	3	4.4	$0.068	0/3	40.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.068 प्रतिसाद वेळ (सरासरी) 40.0s
#154	Qwen3.5-9B none	Qwen	3	3.9	$0.006	0/3	5.60s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.006 प्रतिसाद वेळ (सरासरी) 5.60s
#158	GPT-4o-mini none	OpenAI	3	3.2	$0.006	0/3	1.63s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.006 प्रतिसाद वेळ (सरासरी) 1.63s
#160	GLM 4.7 Flash none	Z.ai	3	4.3	$0.004	0/3	2.54s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.004 प्रतिसाद वेळ (सरासरी) 2.54s
#161	Nemotron 3 Super none	NVIDIA	3	3.3	$0.006	0/3	2.64s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.006 प्रतिसाद वेळ (सरासरी) 2.64s
#164	GPT-5.4 Nano none	OpenAI	3	4.6	$0.011	0/3	2.22s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.011 प्रतिसाद वेळ (सरासरी) 2.22s
#170	Mercury 2 none	Inception	3	3.4	$0.011	0/3	1.03s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.011 प्रतिसाद वेळ (सरासरी) 1.03s
#34	Qwen3.5-27B medium	Qwen	2	6.2	$0.536	1/3	160.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.536 प्रतिसाद वेळ (सरासरी) 160.7s
#37	GPT-5.6 Terra medium	OpenAI	2	6.1	$0.496	1/3	7.19s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.496 प्रतिसाद वेळ (सरासरी) 7.19s
#40	Gemini 3.1 Flash Lite Preview medium	Google	2	5.5	$0.068	1/3	4.09s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.068 प्रतिसाद वेळ (सरासरी) 4.09s
#41	Qwen3.5 Plus 2026-04-20 medium	Qwen	2	6.2	$0.317	1/3	125.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.317 प्रतिसाद वेळ (सरासरी) 125.3s
#42	Gemini 3.1 Flash Lite medium	Google	2	5.5	$0.071	1/3	3.81s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.071 प्रतिसाद वेळ (सरासरी) 3.81s
#47	GPT-5.6 Terra low	OpenAI	2	6.6	$0.343	1/3	9.56s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.343 प्रतिसाद वेळ (सरासरी) 9.56s
#50	GPT-5.6 Luna high	OpenAI	2	5.5	$0.924	1/3	15.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.924 प्रतिसाद वेळ (सरासरी) 15.6s
#54	GPT-5.6 Luna medium	OpenAI	2	5.4	$0.258	1/3	10.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.258 प्रतिसाद वेळ (सरासरी) 10.4s

←

1 2 3 9

→

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स

कोडिंग: चुकीचे उत्तर

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स