ترتيب معلومات عامة x إجابة خاطئة

إخفاقات الفئات في AI BENCHY

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في معلومات عامة، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

إجمالي الإخفاقات

133

النموذج الأكثر تأثرًا

Qwen3.7 Max 1

أسباب الفشل

إجابة خاطئة133 خطأ API13 لا توجد إجابة8

الفئات

خاص بالمجال325 حيل مضادة للذكاء الاصطناعي250 البرمجة201 حل الألغاز154 معلومات عامة133 اتباع التعليمات54 مجمّع53 الذكاء العام36 تحليل البيانات واستخراجها35 استدعاء الأدوات2

133/133

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#76	MiMo-V2.5 medium	Xiaomi	1	3.0	$0.063	0/1	51.3s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.063 زمن الاستجابة (المتوسط) 51.3s
#77	Mimo V2 PRO medium	Xiaomi	1	3.0	$0.333	0/1	82.7s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.333 زمن الاستجابة (المتوسط) 82.7s
#78	gpt-oss-120b medium	OpenAI	1	3.0	$0.013	0/1	26.5s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.013 زمن الاستجابة (المتوسط) 26.5s
#79	GPT-5 Nano medium	OpenAI	1	3.0	$0.081	0/1	20.1s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.081 زمن الاستجابة (المتوسط) 20.1s
#80	Step 3.5 Flash medium	Stepfun	1	3.0	$0.070	0/1	108.4s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.070 زمن الاستجابة (المتوسط) 108.4s
#81	Qwen3.6 27B medium	Qwen	1	3.0	$0.440	0/1	81.0s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.440 زمن الاستجابة (المتوسط) 81.0s
#82	Gemini 3.1 Flash Lite Preview low	Google	1	3.0	$0.026	0/1	1.35s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.026 زمن الاستجابة (المتوسط) 1.35s
#84	Gemini 3.1 Flash Lite Preview none	Google	1	3.0	$0.018	0/1	814ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.018 زمن الاستجابة (المتوسط) 814ms
#85	Gemini 3.1 Flash Lite low	Google	1	3.0	$0.028	0/1	1.46s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.028 زمن الاستجابة (المتوسط) 1.46s
#86	Hy3 preview low	Tencent	1	3.0	$0.018	0/1	41.7s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.018 زمن الاستجابة (المتوسط) 41.7s
#87	Nemotron 3 Super medium	NVIDIA	1	3.0	$0.021	0/1	55.3s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.021 زمن الاستجابة (المتوسط) 55.3s
#88	Gemma 4 31B medium	Google	1	3.0	$0.033	0/1	90.1s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.033 زمن الاستجابة (المتوسط) 90.1s
#89	Qwen3.5-35B-A3B medium	Qwen	1	3.0	$0.401	0/1	177.4s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.401 زمن الاستجابة (المتوسط) 177.4s
#90	GPT-5.5 none	OpenAI	1	3.0	$0.231	0/1	5.01s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.231 زمن الاستجابة (المتوسط) 5.01s
#92	Seed-2.0-Lite none	Bytedance Seed	1	3.0	$0.019	0/1	1.96s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.019 زمن الاستجابة (المتوسط) 1.96s

←

1 4 5 6 9

→

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

معلومات عامة: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية