ترتيب البرمجة x لا توجد إجابة

إخفاقات الفئات في AI BENCHY

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور لا توجد إجابة في البرمجة، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: اختبارات صحيحة ↑.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

Gemma 4 26B A4B 2

أسباب الفشل

إجابة خاطئة230 خطأ API43 انتهت المهلة23 لا توجد إجابة18 لم يتبع التعليمات16 تنسيق إضافي12

الفئات

البرمجة18 معلومات عامة10 خاص بالمجال6 تحليل البيانات واستخراجها5 حيل مضادة للذكاء الاصطناعي4 مجمّع3 اتباع التعليمات2 استدعاء الأدوات2 حل الألغاز2

16/16

الترتيب	النموذج	الشركة	عدد لا توجد إجابة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#71	Gemma 4 26B A4B medium	Google	2	2.9	$0.045	0/3	272.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.045 زمن الاستجابة (المتوسط) 272.5s
#75	Step 3.7 Flash high	Stepfun	2	4.0	$1.148	0/3	206.2s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $1.148 زمن الاستجابة (المتوسط) 206.2s
#76	GLM 5.1 medium	Z.ai	1	4.6	$0.288	0/3	109.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.288 زمن الاستجابة (المتوسط) 109.6s
#86	Mimo V2 Omni medium	Xiaomi	1	3.3	$0.683	0/3	183.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.683 زمن الاستجابة (المتوسط) 183.9s
#93	Step 3.5 Flash medium	Stepfun	1	2.4	$0.070	0/2	258.4s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.070 زمن الاستجابة (المتوسط) 258.4s
#102	Gemma 4 31B medium	Google	1	4.3	$0.033	0/3	219.8s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.033 زمن الاستجابة (المتوسط) 219.8s
#165	MiniMax M2.5 medium	Minimax	1	3.4	$0.303	0/3	188.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.303 زمن الاستجابة (المتوسط) 188.6s
#176	GLM 4.7 Flash medium	Z.ai	1	3.2	$0.054	0/3	55.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.054 زمن الاستجابة (المتوسط) 55.3s
#184	Qwen3.5-9B medium	Qwen	1	2.9	$0.036	0/3	100.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.036 زمن الاستجابة (المتوسط) 100.9s
#43	Kimi K2.6 medium	Moonshot AI	1	5.7	$0.888	1/3	214.4s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.888 زمن الاستجابة (المتوسط) 214.4s
#55	Kimi K2.5 medium	Moonshot AI	1	6.1	$0.348	1/3	217.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.348 زمن الاستجابة (المتوسط) 217.5s
#103	Qwen3.5-35B-A3B medium	Qwen	1	5.9	$0.401	1/3	206.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.401 زمن الاستجابة (المتوسط) 206.6s
#146	MiniMax M2.7 medium	Minimax	1	5.7	$0.100	1/3	101.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.100 زمن الاستجابة (المتوسط) 101.9s
#24	GLM 5 Turbo medium	Z.ai	1	8.2	$0.323	2/3	45.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.323 زمن الاستجابة (المتوسط) 45.9s
#88	Qwen3.6 35B A3B medium	Qwen	1	7.7	$0.146	2/3	50.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.146 زمن الاستجابة (المتوسط) 50.5s

تصفية النماذج

أفضل النماذج حسب عدد لا توجد إجابة

عدد لا توجد إجابة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

البرمجة: لا توجد إجابة

تصفية النماذج

أفضل النماذج حسب عدد لا توجد إجابة

عدد لا توجد إجابة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية