ترتيب معلومات عامة x إجابة خاطئة

إخفاقات الفئات في AI BENCHY

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في معلومات عامة، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

إجمالي الإخفاقات

133

النموذج الأكثر تأثرًا

Qwen3.7 Max 1

أسباب الفشل

إجابة خاطئة133 خطأ API13 لا توجد إجابة8

الفئات

خاص بالمجال325 حيل مضادة للذكاء الاصطناعي250 البرمجة201 حل الألغاز154 معلومات عامة133 اتباع التعليمات54 مجمّع53 الذكاء العام36 تحليل البيانات واستخراجها35 استدعاء الأدوات2

133/133

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#93	Gemini 2.5 Flash none	Google	1	3.0	$0.016	0/1	1.15s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.016 زمن الاستجابة (المتوسط) 1.15s
#94	Gemini 3.1 Flash Lite minimal	Google	1	3.0	$0.013	0/1	724ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.013 زمن الاستجابة (المتوسط) 724ms
#96	Gemini 3.1 Flash Lite none	Google	1	3.0	$0.013	0/1	733ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.013 زمن الاستجابة (المتوسط) 733ms
#97	Qwen3.5-Flash none	Qwen	1	3.0	$0.005	0/1	588ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.005 زمن الاستجابة (المتوسط) 588ms
#98	Gemma 4 31B none	Google	1	3.0	$0.004	0/1	1.25s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.004 زمن الاستجابة (المتوسط) 1.25s
#99	Nemotron 3 Ultra 550b A55b none	NVIDIA	1	3.0	$0.027	0/1	1.83s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.027 زمن الاستجابة (المتوسط) 1.83s
#100	Qwen3.6 Max Preview none	Qwen	1	3.0	$0.075	0/1	1.97s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.075 زمن الاستجابة (المتوسط) 1.97s
#101	GLM 5 none	Z.ai	1	3.0	$0.027	0/1	3.62s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.027 زمن الاستجابة (المتوسط) 3.62s
#102	Qwen3.6 Flash none	Qwen	1	3.0	$0.015	0/1	649ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.015 زمن الاستجابة (المتوسط) 649ms
#103	Qwen3.5-35B-A3B none	Qwen	1	3.0	$0.012	0/1	493ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.012 زمن الاستجابة (المتوسط) 493ms
#104	Qwen3.5-27B none	Qwen	1	3.0	$0.015	0/1	599ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.015 زمن الاستجابة (المتوسط) 599ms
#105	GLM 5V Turbo none	Z.ai	1	3.0	$0.052	0/1	2.23s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.052 زمن الاستجابة (المتوسط) 2.23s
#106	Qwen3.5 Plus 2026-02-15 none	Qwen	1	3.0	$0.016	0/1	1.11s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.016 زمن الاستجابة (المتوسط) 1.11s
#108	Owl Alpha medium	Openrouter	1	3.0	$0.000	0/1	2.38s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 2.38s
#109	Mimo V2 PRO none	Xiaomi	1	3.0	$0.045	0/1	1.63s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.045 زمن الاستجابة (المتوسط) 1.63s

←

1 5 6 7 9

→

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

معلومات عامة: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية