ترتيب معلومات عامة x إجابة خاطئة

إخفاقات الفئات في AI BENCHY

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في معلومات عامة، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

إجمالي الإخفاقات

133

النموذج الأكثر تأثرًا

Qwen3.7 Max 1

أسباب الفشل

إجابة خاطئة133 خطأ API13 لا توجد إجابة8

الفئات

خاص بالمجال325 حيل مضادة للذكاء الاصطناعي250 البرمجة201 حل الألغاز154 معلومات عامة133 اتباع التعليمات54 مجمّع53 الذكاء العام36 تحليل البيانات واستخراجها35 استدعاء الأدوات2

133/133

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#42	Grok Build 0.1 medium	X AI	1	3.0	$0.927	0/1	53.5s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.927 زمن الاستجابة (المتوسط) 53.5s
#43	Kimi K2.5 medium	Moonshot AI	1	3.0	$0.348	0/1	83.9s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.348 زمن الاستجابة (المتوسط) 83.9s
#44	Mercury 2 medium	Inception	1	3.0	$0.058	0/1	2.58s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.058 زمن الاستجابة (المتوسط) 2.58s
#45	GPT-5.3 Chat none	OpenAI	1	3.0	$0.433	0/1	4.38s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.433 زمن الاستجابة (المتوسط) 4.38s
#46	GPT-5.4 Nano medium	OpenAI	1	3.0	$0.107	0/1	4.81s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.107 زمن الاستجابة (المتوسط) 4.81s
#47	Qwen3.6 Flash medium	Qwen	1	3.0	$0.288	0/1	122.9s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.288 زمن الاستجابة (المتوسط) 122.9s
#48	DeepSeek V3.2 medium	DeepSeek	1	3.0	$0.044	0/1	84.0s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.044 زمن الاستجابة (المتوسط) 84.0s
#49	Claude Opus 4.7 none	Anthropic	1	3.0	$0.505	0/1	1.46s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.505 زمن الاستجابة (المتوسط) 1.46s
#50	Seed-2.0-Mini medium	Bytedance Seed	1	3.0	$0.044	0/1	56.8s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.044 زمن الاستجابة (المتوسط) 56.8s
#51	MiMo-V2.5-Pro medium	Xiaomi	1	3.0	$0.106	0/1	12.5s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.106 زمن الاستجابة (المتوسط) 12.5s
#53	Grok 4.20 medium	X AI	1	3.0	$0.609	0/1	63.5s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.609 زمن الاستجابة (المتوسط) 63.5s
#54	Hy3 preview medium	Tencent	1	3.0	$0.021	0/1	39.9s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.021 زمن الاستجابة (المتوسط) 39.9s
#55	Claude Sonnet 4.6 none	Anthropic	1	3.0	$0.316	0/1	4.67s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.316 زمن الاستجابة (المتوسط) 4.67s
#56	GLM 5V Turbo medium	Z.ai	1	3.0	$0.457	0/1	41.0s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.457 زمن الاستجابة (المتوسط) 41.0s
#58	DeepSeek V4 Pro none	DeepSeek	1	3.0	$0.034	0/1	5.76s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.034 زمن الاستجابة (المتوسط) 5.76s

←

1 2 3 4 9

→

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

معلومات عامة: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية