AI BENCHY श्रेणी विफलताएँ

पहेली समाधान

गलत उत्तर

देखें कि पहेली समाधान में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

Kimi K2.5 3

संबंधित विफलता कारण

गलत उत्तर55 निर्देशों का पालन नहीं किया24 समय समाप्त4 API त्रुटि1 अतिरिक्त फॉर्मेटिंग1

संबंधित श्रेणियाँ

डोमेन-विशिष्ट98 पहेली समाधान55 एंटी-एआई ट्रिक्स53 निर्देश पालन26 संयुक्त21 डेटा पार्सिंग और निष्कर्षण14 Samanya Buddhimatta6 टूल कॉलिंग2

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	श्रेणी स्कोर	सही परीक्षण	प्रतिक्रिया समय (औसत)
#46	Kimi K2.5 none	Moonshot AI	3	10.0	0/3	4.73s
#47	GPT-4o-mini none	OpenAI	3	2.3	0/3	1.30s
#48	Qwen3 Coder Next none	Qwen	3	1.3	0/3	22.9s
#51	Mercury 2 none	Inception	3	10.0	0/3	533ms
#53	Grok 4.1 Fast none	X AI	3	1.3	0/3	1.28s
#54	MiMo-V2-Flash none	Xiaomi	3	10.0	0/3	1.38s
#37	Qwen3.5-Flash none	Qwen	2	1.3	0/3	5.90s
#40	Qwen3.5-122B-A10B none	Qwen	2	4.0	1/3	982ms
#42	Qwen3.5-35B-A3B none	Qwen	2	1.7	0/3	1.34s
#45	Trinity Large Preview none	Arcee AI	2	4.0	1/3	3.30s
#52	GLM 4.7 Flash medium	Z.ai	2	10.0	0/3	12.9s
#8	Gemini 3.1 Flash Lite Preview high	Google	1	7.0	2/3	46.3s
#12	Gemini 3.1 Flash Lite Preview medium	Google	1	7.0	2/3	3.58s
#13	Step 3.5 Flash medium	Stepfun	1	4.0	1/3	7.72s
#15	GPT-5.2 Chat none	OpenAI	1	7.0	2/3	4.42s
#16	Gemini 2.5 Flash medium	Google	1	7.0	2/3	3.94s
#18	DeepSeek V3.2 medium	DeepSeek	1	7.0	2/3	36.9s
#20	Gemini 3 Flash Preview none	Google	1	7.0	2/3	1.06s
#21	MiMo-V2-Flash medium	Xiaomi	1	7.0	2/3	3.77s
#23	Seed-2.0-Mini medium	Bytedance Seed	1	7.0	2/3	25.9s
#26	Claude Opus 4.6 medium	Anthropic	1	7.0	2/3	4.60s
#28	Kimi K2.5 medium	Moonshot AI	1	4.0	1/3	45.4s
#29	Qwen3.5 Plus 2026-02-15 none	Qwen	1	7.0	2/3	2.82s
#30	Grok 4.1 Fast medium	X AI	1	4.0	1/3	8.08s
#31	GLM 5 none	Z.ai	1	7.0	2/3	2.05s
#32	GPT-5 Mini medium	OpenAI	1	4.3	1/3	14.1s
#33	DeepSeek V3.2 none	DeepSeek	1	7.7	2/3	7.37s
#34	GPT-5 Nano medium	OpenAI	1	4.0	1/3	19.8s
#35	Qwen3.5-35B-A3B medium	Qwen	1	4.0	1/3	31.6s
#36	Mercury 2 medium	Inception	1	1.7	0/3	934ms
#38	Gemini 2.5 Flash none	Google	1	4.7	1/3	576ms
#39	gpt-oss-120b medium	OpenAI	1	1.7	0/3	11.8s
#41	Qwen3.5-27B none	Qwen	1	6.3	1/3	1.37s
#43	MiniMax M2.5 medium	Minimax	1	4.0	1/3	11.5s
#44	GPT-5.4 none	OpenAI	1	4.0	1/3	1.52s
#49	GLM 4.7 Flash none	Z.ai	1	3.7	0/3	1.00s
#50	Qwen3 Coder Next medium	Qwen	1	10.0	0/3	2.30s
#55	LFM2-24B-A2B none	Liquid	1	3.3	0/3	1.69s

पहेली समाधान

गलत उत्तर

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम औसत स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल