ترتيب البرمجة x إجابة خاطئة

إخفاقات الفئات في AI BENCHY

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في البرمجة، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

إجمالي الإخفاقات

230

النموذج الأكثر تأثرًا

Qwen3.6 Flash 3

أسباب الفشل

إجابة خاطئة230 خطأ API43 انتهت المهلة23 لا توجد إجابة18 لم يتبع التعليمات16 تنسيق إضافي12

الفئات

خاص بالمجال367 حيل مضادة للذكاء الاصطناعي270 البرمجة230 حل الألغاز172 معلومات عامة149 مجمّع58 اتباع التعليمات56 الذكاء العام49 تحليل البيانات واستخراجها36 استدعاء الأدوات3

134/134

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#57	GPT-5.3 Chat none	OpenAI	2	5.6	$0.433	1/3	10.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.433 زمن الاستجابة (المتوسط) 10.5s
#58	GPT-5.4 Nano medium	OpenAI	2	6.1	$0.107	1/3	19.1s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.107 زمن الاستجابة (المتوسط) 19.1s
#64	Gemini 3 Flash Preview low	Google	2	5.8	$0.111	1/3	6.00s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.111 زمن الاستجابة (المتوسط) 6.00s
#65	Grok 4.20 medium	X AI	2	6.3	$0.609	1/3	109.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.609 زمن الاستجابة (المتوسط) 109.9s
#68	GLM 5V Turbo medium	Z.ai	2	6.0	$0.457	1/3	63.4s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.457 زمن الاستجابة (المتوسط) 63.4s
#72	Qwen3.7 Plus none	Qwen	2	5.5	$0.023	1/3	2.15s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.023 زمن الاستجابة (المتوسط) 2.15s
#73	GLM 5.2 none	Z.ai	2	3.7	$0.030	0/3	7.55s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.030 زمن الاستجابة (المتوسط) 7.55s
#77	Laguna XS 2.1 medium	Poolside	2	5.5	$0.036	1/3	70.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.036 زمن الاستجابة (المتوسط) 70.3s
#80	Gemini 3 Flash Preview none	Google	2	5.5	$0.025	1/3	1.80s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 1.80s
#81	Qwen3.7 Max none	Qwen	2	5.5	$0.054	1/3	1.35s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.054 زمن الاستجابة (المتوسط) 1.35s
#83	Qwen3.5-Flash medium	Qwen	2	3.7	$0.080	0/3	58.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.080 زمن الاستجابة (المتوسط) 58.9s
#89	MiMo-V2.5 medium	Xiaomi	2	6.2	$0.061	1/3	97.1s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.061 زمن الاستجابة (المتوسط) 97.1s
#91	gpt-oss-120b medium	OpenAI	2	5.9	$0.013	1/3	38.4s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.013 زمن الاستجابة (المتوسط) 38.4s
#92	GPT-5 Nano medium	OpenAI	2	7.0	$0.081	1/3	41.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.081 زمن الاستجابة (المتوسط) 41.6s
#95	Gemini 3.1 Flash Lite Preview low	Google	2	5.5	$0.026	1/3	1.39s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.026 زمن الاستجابة (المتوسط) 1.39s

←

1 2 3 4 9

→

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

البرمجة: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية