ترتيب البرمجة x إجابة خاطئة

إخفاقات الفئات في AI BENCHY

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في البرمجة، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

إجمالي الإخفاقات

230

النموذج الأكثر تأثرًا

Qwen3.6 Flash 3

أسباب الفشل

إجابة خاطئة230 خطأ API43 انتهت المهلة23 لا توجد إجابة18 لم يتبع التعليمات16 تنسيق إضافي12

الفئات

خاص بالمجال367 حيل مضادة للذكاء الاصطناعي270 البرمجة230 حل الألغاز172 معلومات عامة149 مجمّع58 اتباع التعليمات56 الذكاء العام49 تحليل البيانات واستخراجها36 استدعاء الأدوات3

134/134

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#152	Mistral Small 4 medium	Mistral	3	4.4	$0.068	0/3	40.0s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.068 زمن الاستجابة (المتوسط) 40.0s
#154	Qwen3.5-9B none	Qwen	3	3.9	$0.006	0/3	5.60s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.006 زمن الاستجابة (المتوسط) 5.60s
#158	GPT-4o-mini none	OpenAI	3	3.2	$0.006	0/3	1.63s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.006 زمن الاستجابة (المتوسط) 1.63s
#160	GLM 4.7 Flash none	Z.ai	3	4.3	$0.004	0/3	2.54s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.004 زمن الاستجابة (المتوسط) 2.54s
#161	Nemotron 3 Super none	NVIDIA	3	3.3	$0.006	0/3	2.64s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.006 زمن الاستجابة (المتوسط) 2.64s
#164	GPT-5.4 Nano none	OpenAI	3	4.6	$0.011	0/3	2.22s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.011 زمن الاستجابة (المتوسط) 2.22s
#170	Mercury 2 none	Inception	3	3.4	$0.011	0/3	1.03s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.011 زمن الاستجابة (المتوسط) 1.03s
#34	Qwen3.5-27B medium	Qwen	2	6.2	$0.536	1/3	160.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.536 زمن الاستجابة (المتوسط) 160.7s
#37	GPT-5.6 Terra medium	OpenAI	2	6.1	$0.496	1/3	7.19s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.496 زمن الاستجابة (المتوسط) 7.19s
#40	Gemini 3.1 Flash Lite Preview medium	Google	2	5.5	$0.068	1/3	4.09s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.068 زمن الاستجابة (المتوسط) 4.09s
#41	Qwen3.5 Plus 2026-04-20 medium	Qwen	2	6.2	$0.317	1/3	125.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.317 زمن الاستجابة (المتوسط) 125.3s
#42	Gemini 3.1 Flash Lite medium	Google	2	5.5	$0.071	1/3	3.81s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.071 زمن الاستجابة (المتوسط) 3.81s
#47	GPT-5.6 Terra low	OpenAI	2	6.6	$0.343	1/3	9.56s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.343 زمن الاستجابة (المتوسط) 9.56s
#50	GPT-5.6 Luna high	OpenAI	2	5.5	$0.924	1/3	15.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.924 زمن الاستجابة (المتوسط) 15.6s
#54	GPT-5.6 Luna medium	OpenAI	2	5.4	$0.258	1/3	10.4s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.258 زمن الاستجابة (المتوسط) 10.4s

←

1 2 3 9

→

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

البرمجة: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية