إخفاقات الفئات في AI BENCHY

حل الألغاز

لم يتبع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور لم يتبع التعليمات في حل الألغاز، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

أسباب الإخفاق المرتبطة

إجابة خاطئة55 لم يتبع التعليمات24 انتهت المهلة4 تنسيق إضافي1 خطأ API1

الفئات المرتبطة

الذكاء العام32 حل الألغاز24 حيل مضادة للذكاء الاصطناعي12 اتباع التعليمات9

الترتيب	النموذج	الشركة	عدد لم يتبع التعليمات	درجة الفئة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#36	Mercury 2 medium	Inception	2	1.7	0/3	934ms
#39	gpt-oss-120b medium	OpenAI	2	1.7	0/3	11.8s
#49	GLM 4.7 Flash none	Z.ai	2	3.7	0/3	1.00s
#50	Qwen3 Coder Next medium	Qwen	2	10.0	0/3	2.30s
#3	GPT-5.3-Codex medium	OpenAI	1	9.3	2/3	5.12s
#7	Qwen3.5-27B medium	Qwen	1	8.3	2/3	64.6s
#9	GPT-5.4 medium	OpenAI	1	7.0	2/3	9.13s
#13	Step 3.5 Flash medium	Stepfun	1	4.0	1/3	7.72s
#27	GPT-5.2 medium	OpenAI	1	7.0	2/3	5.47s
#28	Kimi K2.5 medium	Moonshot AI	1	4.0	1/3	45.4s
#30	Grok 4.1 Fast medium	X AI	1	4.0	1/3	8.08s
#32	GPT-5 Mini medium	OpenAI	1	4.3	1/3	14.1s
#34	GPT-5 Nano medium	OpenAI	1	4.0	1/3	19.8s
#37	Qwen3.5-Flash none	Qwen	1	1.3	0/3	5.90s
#38	Gemini 2.5 Flash none	Google	1	4.7	1/3	576ms
#41	Qwen3.5-27B none	Qwen	1	6.3	1/3	1.37s
#42	Qwen3.5-35B-A3B none	Qwen	1	1.7	0/3	1.34s
#44	GPT-5.4 none	OpenAI	1	4.0	1/3	1.52s
#52	GLM 4.7 Flash medium	Z.ai	1	10.0	0/3	12.9s
#55	LFM2-24B-A2B none	Liquid	1	3.3	0/3	1.69s

أفضل النماذج حسب عدد لم يتبع التعليمات