AI BENCHY श्रेणी विफलताएँ

Samanya Buddhimatta

गलत उत्तर

देखें कि Samanya Buddhimatta में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

संबंधित विफलता कारण

संबंधित श्रेणियाँ

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	श्रेणी स्कोर	सही परीक्षण	प्रतिक्रिया समय (औसत)
#29	Qwen3.5 Plus 2026-02-15 none	Qwen	1	4.0	0/1	2.26s
#38	Gemini 2.5 Flash none	Google	1	5.0	0/1	615ms
#44	GPT-5.4 none	OpenAI	1	3.0	0/1	1.78s
#47	GPT-4o-mini none	OpenAI	1	3.0	0/1	909ms
#49	GLM 4.7 Flash none	Z.ai	1	3.0	0/1	1.59s
#52	GLM 4.7 Flash medium	Z.ai	1	10.0	0/1	18.1s

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल