कोडिंग x गलत उत्तर रैंकिंग

AI BENCHY श्रेणी विफलताएँ

देखें कि कोडिंग में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

विफलता के कारण

गलत उत्तर26 समय समाप्त12 API त्रुटि6 निर्देशों का पालन नहीं किया2

श्रेणियाँ

डोमेन-विशिष्ट173 एंटी-एआई ट्रिक्स156 पहेली समाधान80 निर्देश पालन43 संयुक्त34 कोडिंग26 डेटा पार्सिंग और निष्कर्षण17 Samanya Buddhimatta10 टूल कॉलिंग2

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	श्रेणी स्कोर	सही परीक्षण	प्रतिक्रिया समय (औसत)
#32	MiMo-V2-Omni medium	Xiaomi	1	4.0	0/1	68.5s
#44	Grok 4.20 medium	X AI	1	4.3	0/1	24.3s
#46	Qwen3.5 Plus 2026-02-15 none	Qwen	1	6.3	0/1	3.63s
#50	GLM 5 none	Z.ai	1	5.6	0/1	8.84s
#52	MiMo-V2-Omni none	Xiaomi	1	6.6	0/1	1.72s
#54	GPT-5 Nano medium	OpenAI	1	6.7	0/1	40.7s
#61	DeepSeek V3.2 none	DeepSeek	1	2.4	0/1	7.63s
#65	gpt-oss-120b medium	OpenAI	1	4.3	0/1	26.3s
#66	Qwen3.5-122B-A10B none	Qwen	1	4.3	0/1	3.44s
#69	Mistral Small 4 medium	Mistral	1	6.7	0/1	30.5s
#70	GLM 4.7 Flash none	Z.ai	1	6.4	0/1	5.57s
#71	GLM 5.1 none	Z.ai	1	5.1	0/1	9.79s
#73	GLM 5 Turbo none	Z.ai	1	5.3	0/1	3.93s
#74	Trinity Large Preview none	Arcee AI	1	6.3	0/1	39.5s
#75	Grok 4.20 Beta none	X AI	1	5.5	0/1	1.14s

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल