ترتيب معلومات عامة x إجابة خاطئة

إخفاقات الفئات في AI BENCHY

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في معلومات عامة، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

إجمالي الإخفاقات

133

النموذج الأكثر تأثرًا

Qwen3.7 Max 1

أسباب الفشل

إجابة خاطئة133 خطأ API13 لا توجد إجابة8

الفئات

خاص بالمجال325 حيل مضادة للذكاء الاصطناعي250 البرمجة201 حل الألغاز154 معلومات عامة133 اتباع التعليمات54 مجمّع53 الذكاء العام36 تحليل البيانات واستخراجها35 استدعاء الأدوات2

133/133

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#3	Qwen3.7 Max medium	Qwen	1	3.0	$0.523	0/1	33.4s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.523 زمن الاستجابة (المتوسط) 33.4s
#4	GPT-5.5 low	OpenAI	1	3.0	$0.907	0/1	10.1s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.907 زمن الاستجابة (المتوسط) 10.1s
#9	GPT-5.5 medium	OpenAI	1	2.8	$3.679	0/1	37.9s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $3.679 زمن الاستجابة (المتوسط) 37.9s
#10	GPT-5.3-Codex medium	OpenAI	1	2.8	$0.740	0/1	14.4s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.740 زمن الاستجابة (المتوسط) 14.4s
#11	Qwen3.6 Max Preview medium	Qwen	1	3.0	$0.960	0/1	60.6s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.960 زمن الاستجابة (المتوسط) 60.6s
#13	Claude Opus 4.7 medium	Anthropic	1	3.0	$0.679	0/1	2.25s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.679 زمن الاستجابة (المتوسط) 2.25s
#15	GLM 5 medium	Z.ai	1	3.0	$0.228	0/1	67.4s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.228 زمن الاستجابة (المتوسط) 67.4s
#16	GPT-5 Mini medium	OpenAI	1	3.0	$0.159	0/1	9.99s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.159 زمن الاستجابة (المتوسط) 9.99s
#17	GPT-5.4 medium	OpenAI	1	3.0	$1.210	0/1	14.0s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $1.210 زمن الاستجابة (المتوسط) 14.0s
#18	Seed-2.0-Lite medium	Bytedance Seed	1	3.0	$0.175	0/1	48.3s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.175 زمن الاستجابة (المتوسط) 48.3s
#19	GPT-5.2 Chat none	OpenAI	1	3.0	$0.393	0/1	6.89s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.393 زمن الاستجابة (المتوسط) 6.89s
#21	GLM 5 Turbo medium	Z.ai	1	3.0	$0.323	0/1	40.2s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.323 زمن الاستجابة (المتوسط) 40.2s
#22	GPT-5.2 medium	OpenAI	1	3.0	$0.548	0/1	28.2s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.548 زمن الاستجابة (المتوسط) 28.2s
#23	DeepSeek V4 Flash high	DeepSeek	1	3.0	$0.027	0/1	54.5s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.027 زمن الاستجابة (المتوسط) 54.5s
#24	Gemini 2.5 Flash medium	Google	1	3.0	$0.379	0/1	2.76s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.379 زمن الاستجابة (المتوسط) 2.76s

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

معلومات عامة: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية