ترتيب البرمجة x إجابة خاطئة

إخفاقات الفئات في AI BENCHY

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في البرمجة، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: اختبارات صحيحة ↑.

النماذج المعروضة

إجمالي الإخفاقات

230

النموذج الأكثر تأثرًا

Qwen3.6 Flash 3

أسباب الفشل

إجابة خاطئة230 خطأ API43 انتهت المهلة23 لا توجد إجابة18 لم يتبع التعليمات16 تنسيق إضافي12

الفئات

خاص بالمجال367 حيل مضادة للذكاء الاصطناعي270 البرمجة230 حل الألغاز172 معلومات عامة149 مجمّع58 اتباع التعليمات56 الذكاء العام49 تحليل البيانات واستخراجها36 استدعاء الأدوات3

134/134

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#59	Qwen3.6 Flash medium	Qwen	3	5.0	$0.288	0/3	42.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.288 زمن الاستجابة (المتوسط) 42.9s
#73	GLM 5.2 none	Z.ai	2	3.7	$0.030	0/3	7.55s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.030 زمن الاستجابة (المتوسط) 7.55s
#75	Step 3.7 Flash high	Stepfun	1	4.0	$1.148	0/3	206.2s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $1.148 زمن الاستجابة (المتوسط) 206.2s
#83	Qwen3.5-Flash medium	Qwen	2	3.7	$0.080	0/3	58.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.080 زمن الاستجابة (المتوسط) 58.9s
#86	Mimo V2 Omni medium	Xiaomi	1	3.3	$0.683	0/3	183.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.683 زمن الاستجابة (المتوسط) 183.9s
#115	Qwen3.6 Max Preview none	Qwen	3	3.8	$0.075	0/3	3.12s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.075 زمن الاستجابة (المتوسط) 3.12s
#117	GLM 5 none	Z.ai	3	4.0	$0.027	0/3	5.12s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.027 زمن الاستجابة (المتوسط) 5.12s
#122	Qwen3.5 Plus 2026-02-15 none	Qwen	3	4.3	$0.016	0/3	2.05s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.016 زمن الاستجابة (المتوسط) 2.05s
#123	North Mini Code medium	Cohere	3	4.5	$0.000	0/3	320.4s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 320.4s
#130	Mimo V2 Omni none	Xiaomi	1	4.4	$0.021	0/3	2.75s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.021 زمن الاستجابة (المتوسط) 2.75s
#131	Claude Sonnet 5 none	Anthropic	3	4.6	$0.287	0/3	3.67s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.287 زمن الاستجابة (المتوسط) 3.67s
#133	GLM 5.1 none	Z.ai	3	3.9	$0.057	0/3	4.96s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.057 زمن الاستجابة (المتوسط) 4.96s
#134	DeepSeek V4 Flash none	DeepSeek	3	4.2	$0.007	0/3	17.1s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.007 زمن الاستجابة (المتوسط) 17.1s
#136	MiMo-V2.5-Pro none	Xiaomi	2	4.3	$0.017	0/3	1.41s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.017 زمن الاستجابة (المتوسط) 1.41s
#138	Gemma 4 26B A4B none	Google	2	3.7	$0.004	0/3	4.16s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.004 زمن الاستجابة (المتوسط) 4.16s

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

البرمجة: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية