AI BENCHY श्रेणी विफलताएँ

डोमेन-विशिष्ट

समय समाप्त

देखें कि डोमेन-विशिष्ट में किन AI मॉडलों में समय समाप्त आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

संबंधित विफलता कारण

गलत उत्तर98 समय समाप्त17 अतिरिक्त फॉर्मेटिंग3 API त्रुटि1 कोई उत्तर नहीं1

संबंधित श्रेणियाँ

डोमेन-विशिष्ट17 पहेली समाधान4 Samanya Buddhimatta3 एंटी-एआई ट्रिक्स1

रैंक	मॉडल	कंपनी	समय समाप्त संख्या	श्रेणी स्कोर	सही परीक्षण	प्रतिक्रिया समय (औसत)
#23	Seed-2.0-Mini medium	Bytedance Seed	3	10.0	0/3	0ms
#35	Qwen3.5-35B-A3B medium	Qwen	2	10.0	0/3	88.3s
#4	Qwen3.5 Plus 2026-02-15 medium	Qwen	1	4.0	1/3	17.5s
#7	Qwen3.5-27B medium	Qwen	1	4.0	1/3	79.5s
#11	Claude Sonnet 4.6 medium	Anthropic	1	10.0	0/3	0ms
#14	GLM 5 medium	Z.ai	1	10.0	0/3	0ms
#18	DeepSeek V3.2 medium	DeepSeek	1	4.0	1/3	39.3s
#24	Qwen3.5-Flash medium	Qwen	1	4.0	1/3	146.5s
#27	GPT-5.2 medium	OpenAI	1	4.0	1/3	77.8s
#28	Kimi K2.5 medium	Moonshot AI	1	10.0	0/3	137.3s
#30	Grok 4.1 Fast medium	X AI	1	4.0	1/3	121.8s
#32	GPT-5 Mini medium	OpenAI	1	10.0	0/3	44.6s
#34	GPT-5 Nano medium	OpenAI	1	4.0	1/3	204.0s
#43	MiniMax M2.5 medium	Minimax	1	10.0	0/3	237.3s

समय समाप्त संख्या के अनुसार शीर्ष मॉडल