إخفاقات الفئات في AI BENCHY

تحليل البيانات واستخراجها

إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في تحليل البيانات واستخراجها، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

أسباب الإخفاق المرتبطة

إجابة خاطئة14 خطأ API4 لا توجد إجابة2 تنسيق إضافي1

الفئات المرتبطة

خاص بالمجال98 حل الألغاز55 حيل مضادة للذكاء الاصطناعي53 اتباع التعليمات26 مجمّع21 تحليل البيانات واستخراجها14 الذكاء العام6 استدعاء الأدوات2

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#34	GPT-5 Nano medium	OpenAI	2	10.0	0/2	21.4s
#43	MiniMax M2.5 medium	Minimax	2	10.0	0/2	7.48s
#55	LFM2-24B-A2B none	Liquid	2	10.0	0/2	714ms
#33	DeepSeek V3.2 none	DeepSeek	1	5.4	1/2	9.42s
#36	Mercury 2 medium	Inception	1	5.5	1/2	1.11s
#39	gpt-oss-120b medium	OpenAI	1	5.5	1/2	1.98s
#46	Kimi K2.5 none	Moonshot AI	1	5.4	1/2	42.1s
#48	Qwen3 Coder Next none	Qwen	1	5.4	1/2	1.32s
#49	GLM 4.7 Flash none	Z.ai	1	5.4	1/2	4.82s
#50	Qwen3 Coder Next medium	Qwen	1	5.4	1/2	81.8s
#51	Mercury 2 none	Inception	1	5.5	1/2	667ms

أفضل النماذج حسب عدد إجابة خاطئة