कोडिंग x चुकीचे उत्तर क्रमवारी

AI BENCHY श्रेणी अपयशे

कोडिंग मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील.

दाखवलेली मॉडेल्स

एकूण अपयशे

230

सर्वाधिक प्रभावित मॉडेल

Qwen3.6 Flash 3

अयशस्वी होण्याची कारणे

चुकीचे उत्तर230 API त्रुटी43 वेळ संपला25 उत्तर नाही18 सूचनांचे पालन केले नाही16 अतिरिक्त फॉरमॅटिंग12

श्रेणी

डोमेन-विशिष्ट368 अँटी-एआय युक्त्या270 कोडिंग230 कोडी सोडवणे173 सामान्य ज्ञान150 संयुक्त58 सूचनांचे पालन56 Samanya Buddhimatta49 डेटा पार्सिंग आणि निष्कर्षण36 टूल कॉलिंग3

134/134

क्रमांक	मॉडेल	कंपनी	चुकीचे उत्तर संख्या	श्रेणी स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#98	Gemini 3.1 Flash Lite Preview none	Google	2	5.5	$0.018	1/3	967ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.018 प्रतिसाद वेळ (सरासरी) 967ms
#99	Gemini 3.1 Flash Lite low	Google	2	5.5	$0.028	1/3	1.53s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.028 प्रतिसाद वेळ (सरासरी) 1.53s
#102	GPT-5.6 Sol none	OpenAI	2	5.5	$0.225	1/3	1.39s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.225 प्रतिसाद वेळ (सरासरी) 1.39s
#105	GPT-5.5 none	OpenAI	2	5.5	$0.231	1/3	1.35s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.231 प्रतिसाद वेळ (सरासरी) 1.35s
#107	Seed-2.0-Lite none	Bytedance Seed	2	5.6	$0.019	1/3	2.83s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.019 प्रतिसाद वेळ (सरासरी) 2.83s
#108	GPT-5.6 Luna low	OpenAI	2	5.5	$0.141	1/3	4.61s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.141 प्रतिसाद वेळ (सरासरी) 4.61s
#109	Gemini 2.5 Flash none	Google	2	5.5	$0.016	1/3	736ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.016 प्रतिसाद वेळ (सरासरी) 736ms
#110	Gemini 3.1 Flash Lite minimal	Google	2	5.5	$0.013	1/3	831ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.013 प्रतिसाद वेळ (सरासरी) 831ms
#112	Gemini 3.1 Flash Lite none	Google	2	5.5	$0.013	1/3	938ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.013 प्रतिसाद वेळ (सरासरी) 938ms
#113	Qwen3.5-Flash none	Qwen	2	5.5	$0.005	1/3	850ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.005 प्रतिसाद वेळ (सरासरी) 850ms
#114	Gemma 4 31B none	Google	2	5.5	$0.004	1/3	11.2s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.004 प्रतिसाद वेळ (सरासरी) 11.2s
#115	Nemotron 3 Ultra 550b A55b none	NVIDIA	2	5.5	$0.027	1/3	1.02s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.027 प्रतिसाद वेळ (सरासरी) 1.02s
#117	GPT-5.6 Terra none	OpenAI	2	5.5	$0.130	1/3	1.00s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.130 प्रतिसाद वेळ (सरासरी) 1.00s
#119	Qwen3.6 Flash none	Qwen	2	5.4	$0.015	1/3	1.79s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.015 प्रतिसाद वेळ (सरासरी) 1.79s
#120	Qwen3.5-35B-A3B none	Qwen	2	5.5	$0.012	1/3	1.39s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.012 प्रतिसाद वेळ (सरासरी) 1.39s

←

1 3 4 5 9

→

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स

कोडिंग: चुकीचे उत्तर

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स