कोडिंग x चुकीचे उत्तर क्रमवारी

AI BENCHY श्रेणी अपयशे

कोडिंग मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील.

दाखवलेली मॉडेल्स

एकूण अपयशे

सर्वाधिक प्रभावित मॉडेल

अयशस्वी होण्याची कारणे

चुकीचे उत्तर26 वेळ संपला12 API त्रुटी6 सूचनांचे पालन केले नाही2

श्रेणी

डोमेन-विशिष्ट173 अँटी-एआय युक्त्या156 कोडी सोडवणे80 सूचनांचे पालन43 संयुक्त34 कोडिंग26 डेटा पार्सिंग आणि निष्कर्षण17 Samanya Buddhimatta10 टूल कॉलिंग2

क्रमांक	मॉडेल	कंपनी	चुकीचे उत्तर संख्या	श्रेणी स्कोअर	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#32	MiMo-V2-Omni medium	Xiaomi	1	4.0	0/1	68.5s
#44	Grok 4.20 medium	X AI	1	4.3	0/1	24.3s
#46	Qwen3.5 Plus 2026-02-15 none	Qwen	1	6.3	0/1	3.63s
#50	GLM 5 none	Z.ai	1	5.6	0/1	8.84s
#52	MiMo-V2-Omni none	Xiaomi	1	6.6	0/1	1.72s
#54	GPT-5 Nano medium	OpenAI	1	6.7	0/1	40.7s
#61	DeepSeek V3.2 none	DeepSeek	1	2.4	0/1	7.63s
#65	gpt-oss-120b medium	OpenAI	1	4.3	0/1	26.3s
#66	Qwen3.5-122B-A10B none	Qwen	1	4.3	0/1	3.44s
#69	Mistral Small 4 medium	Mistral	1	6.7	0/1	30.5s
#70	GLM 4.7 Flash none	Z.ai	1	6.4	0/1	5.57s
#71	GLM 5.1 none	Z.ai	1	5.1	0/1	9.79s
#73	GLM 5 Turbo none	Z.ai	1	5.3	0/1	3.93s
#74	Trinity Large Preview none	Arcee AI	1	6.3	0/1	39.5s
#75	Grok 4.20 Beta none	X AI	1	5.5	0/1	1.14s

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स