ترتيب البرمجة x إجابة خاطئة

إخفاقات الفئات في AI BENCHY

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في البرمجة، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

إجمالي الإخفاقات

230

النموذج الأكثر تأثرًا

Qwen3.6 Flash 3

أسباب الفشل

إجابة خاطئة230 خطأ API43 انتهت المهلة25 لا توجد إجابة18 لم يتبع التعليمات16 تنسيق إضافي12

الفئات

خاص بالمجال368 حيل مضادة للذكاء الاصطناعي270 البرمجة230 حل الألغاز173 معلومات عامة150 مجمّع58 اتباع التعليمات56 الذكاء العام49 تحليل البيانات واستخراجها36 استدعاء الأدوات3

134/134

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#121	Qwen3.5-27B none	Qwen	2	5.8	$0.015	1/3	1.80s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.015 زمن الاستجابة (المتوسط) 1.80s
#122	GLM 5V Turbo none	Z.ai	2	5.5	$0.052	1/3	3.13s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.052 زمن الاستجابة (المتوسط) 3.13s
#129	GPT-5.4 none	OpenAI	2	5.5	$0.122	1/3	1.62s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.122 زمن الاستجابة (المتوسط) 1.62s
#136	Kimi K2.5 none	Moonshot AI	2	5.5	$0.027	1/3	24.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.027 زمن الاستجابة (المتوسط) 24.6s
#137	MiMo-V2.5-Pro none	Xiaomi	2	4.3	$0.017	0/3	1.41s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.017 زمن الاستجابة (المتوسط) 1.41s
#138	Qwen3.6 27B none	Qwen	2	5.5	$0.025	1/3	4.16s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 4.16s
#139	Gemma 4 26B A4B none	Google	2	3.7	$0.004	0/3	4.16s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.004 زمن الاستجابة (المتوسط) 4.16s
#140	Qwen3.5 Plus 2026-04-20 none	Qwen	2	3.9	$0.032	0/3	1.69s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.032 زمن الاستجابة (المتوسط) 1.69s
#144	GPT-5.4 Mini none	OpenAI	2	5.5	$0.038	1/3	913ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.038 زمن الاستجابة (المتوسط) 913ms
#146	DeepSeek V3.2 none	DeepSeek	2	3.1	$0.016	0/3	14.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.016 زمن الاستجابة (المتوسط) 14.5s
#148	Qwen3.6 35B A3B none	Qwen	2	5.5	$0.031	1/3	8.77s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.031 زمن الاستجابة (المتوسط) 8.77s
#154	MiMo-V2.5 none	Xiaomi	2	5.5	$0.006	1/3	3.24s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.006 زمن الاستجابة (المتوسط) 3.24s
#168	Qwen3 Coder Next medium	Qwen	2	3.7	$0.008	0/3	924ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 924ms
#179	MiMo-V2-Flash none	Xiaomi	2	4.3	$0.025	0/3	2.64s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 2.64s
#2	Gemini 3 Flash Preview medium	Google	1	8.6	$0.667	2/3	84.4s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.667 زمن الاستجابة (المتوسط) 84.4s

←

1 4 5 6 9

→

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

البرمجة: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية