ترتيب البرمجة x إجابة خاطئة

إخفاقات الفئات في AI BENCHY

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في البرمجة، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

إجمالي الإخفاقات

230

النموذج الأكثر تأثرًا

Qwen3.6 Flash 3

أسباب الفشل

إجابة خاطئة230 خطأ API43 انتهت المهلة25 لا توجد إجابة18 لم يتبع التعليمات16 تنسيق إضافي12

الفئات

خاص بالمجال368 حيل مضادة للذكاء الاصطناعي270 البرمجة230 حل الألغاز173 معلومات عامة150 مجمّع58 اتباع التعليمات56 الذكاء العام49 تحليل البيانات واستخراجها36 استدعاء الأدوات3

134/134

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#31	Nemotron 3 Ultra 550b A55b medium	NVIDIA	1	8.4	$0.158	2/3	26.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.158 زمن الاستجابة (المتوسط) 26.5s
#33	GPT-5.4 Mini medium	OpenAI	1	8.4	$0.526	2/3	57.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.526 زمن الاستجابة (المتوسط) 57.9s
#34	Qwen3.5 Plus 2026-02-15 medium	Qwen	1	6.6	$0.310	1/3	180.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.310 زمن الاستجابة (المتوسط) 180.7s
#36	Claude Sonnet 5 medium	Anthropic	1	9.0	$0.550	2/3	17.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.550 زمن الاستجابة (المتوسط) 17.3s
#37	Qwen3.6 Plus medium	Qwen	1	6.1	$0.294	1/3	153.1s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.294 زمن الاستجابة (المتوسط) 153.1s
#39	Claude Sonnet 4.6 medium	Anthropic	1	5.7	$1.418	1/3	33.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $1.418 زمن الاستجابة (المتوسط) 33.3s
#45	Qwen3.5-122B-A10B medium	Qwen	1	6.0	$0.588	1/3	114.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.588 زمن الاستجابة (المتوسط) 114.5s
#46	Claude Opus 4.8 low	Anthropic	1	6.6	$1.270	1/3	7.58s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $1.270 زمن الاستجابة (المتوسط) 7.58s
#47	Grok 4.3 medium	X AI	1	5.9	$0.614	1/3	41.2s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.614 زمن الاستجابة (المتوسط) 41.2s
#50	Step 3.7 Flash low	Stepfun	1	8.2	$0.341	2/3	9.46s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.341 زمن الاستجابة (المتوسط) 9.46s
#54	Grok Build 0.1 medium	X AI	1	5.7	$0.927	1/3	108.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.927 زمن الاستجابة (المتوسط) 108.5s
#57	Mercury 2 medium	Inception	1	8.2	$0.058	2/3	2.04s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.058 زمن الاستجابة (المتوسط) 2.04s
#61	DeepSeek V3.2 medium	DeepSeek	1	6.0	$0.042	1/3	248.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.042 زمن الاستجابة (المتوسط) 248.7s
#63	Seed-2.0-Mini medium	Bytedance Seed	1	5.5	$0.044	1/3	220.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.044 زمن الاستجابة (المتوسط) 220.5s
#68	Claude Sonnet 4.6 none	Anthropic	1	5.5	$0.316	1/3	5.19s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.316 زمن الاستجابة (المتوسط) 5.19s

←

1 6 7 8 9

→

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

البرمجة: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية