कोडिंग x चुकीचे उत्तर क्रमवारी

AI BENCHY श्रेणी अपयशे

कोडिंग मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↑.

दाखवलेली मॉडेल्स

एकूण अपयशे

230

सर्वाधिक प्रभावित मॉडेल

Laguna XS 2.1 3

अयशस्वी होण्याची कारणे

चुकीचे उत्तर230 API त्रुटी43 वेळ संपला23 उत्तर नाही18 सूचनांचे पालन केले नाही16 अतिरिक्त फॉरमॅटिंग12

श्रेणी

डोमेन-विशिष्ट367 अँटी-एआय युक्त्या270 कोडिंग230 कोडी सोडवणे172 सामान्य ज्ञान149 संयुक्त58 सूचनांचे पालन56 Samanya Buddhimatta49 डेटा पार्सिंग आणि निष्कर्षण36 टूल कॉलिंग3

134/134

क्रमांक	मॉडेल	कंपनी	चुकीचे उत्तर संख्या	श्रेणी स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#141	Laguna XS 2.1 none	Poolside	3	4.3	$0.003	0/3	623ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.003 प्रतिसाद वेळ (सरासरी) 623ms
#108	Gemini 2.5 Flash none	Google	2	5.5	$0.016	1/3	736ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.016 प्रतिसाद वेळ (सरासरी) 736ms
#182	Granite 4.1 8B none	IBM Granite	1	4.5	$0.003	0/3	775ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.003 प्रतिसाद वेळ (सरासरी) 775ms
#109	Gemini 3.1 Flash Lite minimal	Google	2	5.5	$0.013	1/3	831ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.013 प्रतिसाद वेळ (सरासरी) 831ms
#112	Qwen3.5-Flash none	Qwen	2	5.5	$0.005	1/3	850ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.005 प्रतिसाद वेळ (सरासरी) 850ms
#148	Mistral Small 4 none	Mistral	3	3.7	$0.007	0/3	901ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.007 प्रतिसाद वेळ (सरासरी) 901ms
#143	GPT-5.4 Mini none	OpenAI	2	5.5	$0.038	1/3	913ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.038 प्रतिसाद वेळ (सरासरी) 913ms
#167	Qwen3 Coder Next medium	Qwen	2	3.7	$0.008	0/3	924ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 924ms
#111	Gemini 3.1 Flash Lite none	Google	2	5.5	$0.013	1/3	938ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.013 प्रतिसाद वेळ (सरासरी) 938ms
#97	Gemini 3.1 Flash Lite Preview none	Google	2	5.5	$0.018	1/3	967ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.018 प्रतिसाद वेळ (सरासरी) 967ms
#142	GPT-5.6 Luna none	OpenAI	3	3.8	$0.047	0/3	980ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.047 प्रतिसाद वेळ (सरासरी) 980ms
#116	GPT-5.6 Terra none	OpenAI	2	5.5	$0.130	1/3	1.00s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.130 प्रतिसाद वेळ (सरासरी) 1.00s
#114	Nemotron 3 Ultra 550b A55b none	NVIDIA	2	5.5	$0.027	1/3	1.02s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.027 प्रतिसाद वेळ (सरासरी) 1.02s
#170	Mercury 2 none	Inception	3	3.4	$0.011	0/3	1.03s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.011 प्रतिसाद वेळ (सरासरी) 1.03s
#168	Grok 4.20 Beta none	X AI	1	1.8	$0.087	0/1	1.14s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.087 प्रतिसाद वेळ (सरासरी) 1.14s

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स

कोडिंग: चुकीचे उत्तर

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स