कोडिंग x चुकीचे उत्तर क्रमवारी

AI BENCHY श्रेणी अपयशे

कोडिंग मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील.

दाखवलेली मॉडेल्स

एकूण अपयशे

230

सर्वाधिक प्रभावित मॉडेल

Qwen3.6 Flash 3

अयशस्वी होण्याची कारणे

चुकीचे उत्तर230 API त्रुटी43 वेळ संपला25 उत्तर नाही18 सूचनांचे पालन केले नाही16 अतिरिक्त फॉरमॅटिंग12

श्रेणी

डोमेन-विशिष्ट368 अँटी-एआय युक्त्या270 कोडिंग230 कोडी सोडवणे173 सामान्य ज्ञान150 संयुक्त58 सूचनांचे पालन56 Samanya Buddhimatta49 डेटा पार्सिंग आणि निष्कर्षण36 टूल कॉलिंग3

134/134

क्रमांक	मॉडेल	कंपनी	चुकीचे उत्तर संख्या	श्रेणी स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#8	Gemini 3.5 Flash low	Google	1	7.8	$0.349	2/3	6.71s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.349 प्रतिसाद वेळ (सरासरी) 6.71s
#10	Gemini 3.1 Pro Preview medium	Google	1	7.9	$1.054	2/3	40.2s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $1.054 प्रतिसाद वेळ (सरासरी) 40.2s
#12	GPT-5.5 medium	OpenAI	1	8.8	$3.679	2/3	59.8s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $3.679 प्रतिसाद वेळ (सरासरी) 59.8s
#14	Qwen3.6 Max Preview medium	Qwen	1	8.8	$0.960	2/3	146.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.960 प्रतिसाद वेळ (सरासरी) 146.5s
#16	Claude Opus 4.7 medium	Anthropic	1	7.6	$0.679	2/3	13.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.679 प्रतिसाद वेळ (सरासरी) 13.0s
#17	GLM 5.2 medium	Z.ai	1	8.2	$0.179	2/3	41.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.179 प्रतिसाद वेळ (सरासरी) 41.0s
#20	GPT-5.4 medium	OpenAI	1	8.8	$1.210	2/3	44.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $1.210 प्रतिसाद वेळ (सरासरी) 44.4s
#21	Seed-2.0-Lite medium	Bytedance Seed	1	8.0	$0.175	2/3	156.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.175 प्रतिसाद वेळ (सरासरी) 156.7s
#22	GPT-5.2 Chat none	OpenAI	1	8.8	$0.393	2/3	9.82s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.393 प्रतिसाद वेळ (सरासरी) 9.82s
#23	Step 3.7 Flash medium	Stepfun	1	8.8	$0.376	2/3	27.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.376 प्रतिसाद वेळ (सरासरी) 27.4s
#26	Grok 4.5 medium	X AI	1	7.6	$1.696	2/3	155.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $1.696 प्रतिसाद वेळ (सरासरी) 155.7s
#27	DeepSeek V4 Flash high	DeepSeek	1	7.8	$0.027	2/3	50.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.027 प्रतिसाद वेळ (सरासरी) 50.6s
#28	Gemini 2.5 Flash medium	Google	1	7.8	$0.379	2/3	41.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.379 प्रतिसाद वेळ (सरासरी) 41.0s
#29	GPT-5.6 Terra high	OpenAI	1	7.6	$0.852	2/3	9.14s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.852 प्रतिसाद वेळ (सरासरी) 9.14s
#30	Qwen3.7 Plus medium	Qwen	1	6.1	$0.177	1/3	108.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.177 प्रतिसाद वेळ (सरासरी) 108.6s

←

1 5 6 7 9

→

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स

कोडिंग: चुकीचे उत्तर

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स