ترتيب البرمجة x إجابة خاطئة

إخفاقات الفئات في AI BENCHY

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في البرمجة، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

إجمالي الإخفاقات

230

النموذج الأكثر تأثرًا

Qwen3.6 Flash 3

أسباب الفشل

إجابة خاطئة230 خطأ API43 انتهت المهلة25 لا توجد إجابة18 لم يتبع التعليمات16 تنسيق إضافي12

الفئات

خاص بالمجال368 حيل مضادة للذكاء الاصطناعي270 البرمجة230 حل الألغاز173 معلومات عامة150 مجمّع58 اتباع التعليمات56 الذكاء العام49 تحليل البيانات واستخراجها36 استدعاء الأدوات3

134/134

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#8	Gemini 3.5 Flash low	Google	1	7.8	$0.349	2/3	6.71s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.349 زمن الاستجابة (المتوسط) 6.71s
#10	Gemini 3.1 Pro Preview medium	Google	1	7.9	$1.054	2/3	40.2s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $1.054 زمن الاستجابة (المتوسط) 40.2s
#12	GPT-5.5 medium	OpenAI	1	8.8	$3.679	2/3	59.8s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $3.679 زمن الاستجابة (المتوسط) 59.8s
#14	Qwen3.6 Max Preview medium	Qwen	1	8.8	$0.960	2/3	146.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.960 زمن الاستجابة (المتوسط) 146.5s
#16	Claude Opus 4.7 medium	Anthropic	1	7.6	$0.679	2/3	13.0s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.679 زمن الاستجابة (المتوسط) 13.0s
#17	GLM 5.2 medium	Z.ai	1	8.2	$0.179	2/3	41.0s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.179 زمن الاستجابة (المتوسط) 41.0s
#20	GPT-5.4 medium	OpenAI	1	8.8	$1.210	2/3	44.4s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $1.210 زمن الاستجابة (المتوسط) 44.4s
#21	Seed-2.0-Lite medium	Bytedance Seed	1	8.0	$0.175	2/3	156.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.175 زمن الاستجابة (المتوسط) 156.7s
#22	GPT-5.2 Chat none	OpenAI	1	8.8	$0.393	2/3	9.82s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.393 زمن الاستجابة (المتوسط) 9.82s
#23	Step 3.7 Flash medium	Stepfun	1	8.8	$0.376	2/3	27.4s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.376 زمن الاستجابة (المتوسط) 27.4s
#26	Grok 4.5 medium	X AI	1	7.6	$1.696	2/3	155.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $1.696 زمن الاستجابة (المتوسط) 155.7s
#27	DeepSeek V4 Flash high	DeepSeek	1	7.8	$0.027	2/3	50.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.027 زمن الاستجابة (المتوسط) 50.6s
#28	Gemini 2.5 Flash medium	Google	1	7.8	$0.379	2/3	41.0s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.379 زمن الاستجابة (المتوسط) 41.0s
#29	GPT-5.6 Terra high	OpenAI	1	7.6	$0.852	2/3	9.14s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.852 زمن الاستجابة (المتوسط) 9.14s
#30	Qwen3.7 Plus medium	Qwen	1	6.1	$0.177	1/3	108.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.177 زمن الاستجابة (المتوسط) 108.6s

←

1 5 6 7 9

→

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

البرمجة: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية