ترتيب معلومات عامة x إجابة خاطئة

إخفاقات الفئات في AI BENCHY

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في معلومات عامة، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

إجمالي الإخفاقات

133

النموذج الأكثر تأثرًا

Qwen3.7 Max 1

أسباب الفشل

إجابة خاطئة133 خطأ API13 لا توجد إجابة8

الفئات

خاص بالمجال325 حيل مضادة للذكاء الاصطناعي250 البرمجة201 حل الألغاز154 معلومات عامة133 اتباع التعليمات54 مجمّع53 الذكاء العام36 تحليل البيانات واستخراجها35 استدعاء الأدوات2

133/133

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#126	DeepSeek V3.2 none	DeepSeek	1	3.0	$0.017	0/1	17.2s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.017 زمن الاستجابة (المتوسط) 17.2s
#127	MiniMax M2.7 medium	Minimax	1	3.0	$0.104	0/1	22.8s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.104 زمن الاستجابة (المتوسط) 22.8s
#128	Qwen3.6 35B A3B none	Qwen	1	3.0	$0.031	0/1	414ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.031 زمن الاستجابة (المتوسط) 414ms
#129	Mistral Small 4 none	Mistral	1	3.0	$0.007	0/1	397ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.007 زمن الاستجابة (المتوسط) 397ms
#130	Qwen3 Coder Next none	Qwen	1	3.0	$0.009	0/1	601ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.009 زمن الاستجابة (المتوسط) 601ms
#131	North Mini Code none	Cohere	1	3.0	$0.000	0/1	37.4s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 37.4s
#133	Mistral Small 4 medium	Mistral	1	3.0	$0.068	0/1	5.92s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.068 زمن الاستجابة (المتوسط) 5.92s
#134	MiMo-V2.5 none	Xiaomi	1	3.0	$0.007	0/1	3.89s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.007 زمن الاستجابة (المتوسط) 3.89s
#135	Qwen3.5-9B none	Qwen	1	3.0	$0.006	0/1	2.32s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.006 زمن الاستجابة (المتوسط) 2.32s
#137	Trinity Large Preview none	Arcee AI	1	3.0	$0.008	0/1	777ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 777ms
#139	GPT-4o-mini none	OpenAI	1	3.0	$0.006	0/1	794ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.006 زمن الاستجابة (المتوسط) 794ms
#140	Cobuddy medium	Baidu	1	3.0	$0.000	0/1	37.0s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 37.0s
#141	GLM 4.7 Flash none	Z.ai	1	3.0	$0.004	0/1	692ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.004 زمن الاستجابة (المتوسط) 692ms
#142	Nemotron 3 Super none	NVIDIA	1	3.0	$0.007	0/1	8.94s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.007 زمن الاستجابة (المتوسط) 8.94s
#143	Ling-2.6-flash none	Inclusionai	1	3.0	$0.001	0/1	1.06s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.001 زمن الاستجابة (المتوسط) 1.06s

←

1 7 8 9

→

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

معلومات عامة: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية