ترتيب معلومات عامة x إجابة خاطئة

إخفاقات الفئات في AI BENCHY

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في معلومات عامة، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

إجمالي الإخفاقات

133

النموذج الأكثر تأثرًا

Qwen3.7 Max 1

أسباب الفشل

إجابة خاطئة133 خطأ API13 لا توجد إجابة8

الفئات

خاص بالمجال325 حيل مضادة للذكاء الاصطناعي250 البرمجة201 حل الألغاز154 معلومات عامة133 اتباع التعليمات54 مجمّع53 الذكاء العام36 تحليل البيانات واستخراجها35 استدعاء الأدوات2

133/133

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#110	Owl Alpha none	Openrouter	1	3.0	$0.000	0/1	2.50s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 2.50s
#111	Kimi K2.6 none	Moonshot AI	1	3.0	$0.079	0/1	1.36s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.079 زمن الاستجابة (المتوسط) 1.36s
#112	GPT-5.4 none	OpenAI	1	3.0	$0.122	0/1	990ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.122 زمن الاستجابة (المتوسط) 990ms
#114	Mimo V2 Omni none	Xiaomi	1	3.0	$0.021	0/1	1.30s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.021 زمن الاستجابة (المتوسط) 1.30s
#115	Grok 4.1 Fast medium	X AI	1	3.0	$0.069	0/1	25.5s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.069 زمن الاستجابة (المتوسط) 25.5s
#116	GLM 5.1 none	Z.ai	1	3.0	$0.058	0/1	2.34s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.058 زمن الاستجابة (المتوسط) 2.34s
#117	DeepSeek V4 Flash none	DeepSeek	1	3.0	$0.007	0/1	3.07s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.007 زمن الاستجابة (المتوسط) 3.07s
#118	Kimi K2.5 none	Moonshot AI	1	3.0	$0.027	0/1	3.90s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.027 زمن الاستجابة (المتوسط) 3.90s
#119	MiMo-V2.5-Pro none	Xiaomi	1	3.0	$0.017	0/1	1.89s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.017 زمن الاستجابة (المتوسط) 1.89s
#120	Qwen3.6 27B none	Qwen	1	3.0	$0.028	0/1	4.03s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.028 زمن الاستجابة (المتوسط) 4.03s
#121	Gemma 4 26B A4B none	Google	1	3.0	$0.004	0/1	778ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.004 زمن الاستجابة (المتوسط) 778ms
#122	Qwen3.5 Plus 2026-04-20 none	Qwen	1	3.0	$0.032	0/1	33.3s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.032 زمن الاستجابة (المتوسط) 33.3s
#123	GLM 5 Turbo none	Z.ai	1	3.0	$0.047	0/1	2.37s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.047 زمن الاستجابة (المتوسط) 2.37s
#124	GPT-5.4 Mini none	OpenAI	1	3.0	$0.038	0/1	1.33s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.038 زمن الاستجابة (المتوسط) 1.33s
#125	Qwen3.5-122B-A10B none	Qwen	1	3.0	$0.020	0/1	295ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.020 زمن الاستجابة (المتوسط) 295ms

←

1 6 7 8 9

→

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

معلومات عامة: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية