ترتيب معلومات عامة x إجابة خاطئة

إخفاقات الفئات في AI BENCHY

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في معلومات عامة، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

إجمالي الإخفاقات

133

النموذج الأكثر تأثرًا

Qwen3.7 Max 1

أسباب الفشل

إجابة خاطئة133 خطأ API13 لا توجد إجابة8

الفئات

خاص بالمجال325 حيل مضادة للذكاء الاصطناعي250 البرمجة201 حل الألغاز154 معلومات عامة133 اتباع التعليمات54 مجمّع53 الذكاء العام36 تحليل البيانات واستخراجها35 استدعاء الأدوات2

133/133

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#59	Gemma 4 26B A4B medium	Google	1	3.0	$0.045	0/1	180.9s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.045 زمن الاستجابة (المتوسط) 180.9s
#60	Qwen3.7 Plus none	Qwen	1	3.0	$0.023	0/1	1.21s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.023 زمن الاستجابة (المتوسط) 1.21s
#61	GLM 5.2 none	Z.ai	1	3.0	$0.076	0/1	3.41s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.076 زمن الاستجابة (المتوسط) 3.41s
#62	MiMo-V2-Flash medium	Xiaomi	1	3.0	$0.043	0/1	1.96s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.043 زمن الاستجابة (المتوسط) 1.96s
#64	GLM 5.1 medium	Z.ai	1	3.0	$0.292	0/1	29.4s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.292 زمن الاستجابة (المتوسط) 29.4s
#65	Kimi K2.7 Code medium	Moonshot AI	1	3.0	$0.583	0/1	341.8s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.583 زمن الاستجابة (المتوسط) 341.8s
#66	Gemini 3.5 Flash none	Google	1	2.8	$1.079	0/1	4.87s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $1.079 زمن الاستجابة (المتوسط) 4.87s
#67	Gemini 3 Flash Preview none	Google	1	3.0	$0.025	0/1	1.07s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 1.07s
#68	Qwen3.7 Max none	Qwen	1	3.0	$0.054	0/1	856ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.054 زمن الاستجابة (المتوسط) 856ms
#70	Qwen3.5-Flash medium	Qwen	1	3.0	$0.080	0/1	49.0s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.080 زمن الاستجابة (المتوسط) 49.0s
#71	Gemini 3.5 Flash minimal	Google	1	3.0	$0.108	0/1	1.76s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.108 زمن الاستجابة (المتوسط) 1.76s
#72	Ring-2.6-1T medium	Inclusionai	1	3.0	$0.033	0/1	113.9s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.033 زمن الاستجابة (المتوسط) 113.9s
#73	Mimo V2 Omni medium	Xiaomi	1	3.0	$0.683	0/1	234.2s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.683 زمن الاستجابة (المتوسط) 234.2s
#74	Hy3 preview high	Tencent	1	3.0	$0.059	0/1	47.7s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.059 زمن الاستجابة (المتوسط) 47.7s
#75	Qwen3.6 35B A3B medium	Qwen	1	3.0	$0.146	0/1	32.9s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.146 زمن الاستجابة (المتوسط) 32.9s

←

1 3 4 5 9

→

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

معلومات عامة: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية