ترتيب البرمجة x لم يتبع التعليمات

إخفاقات الفئات في AI BENCHY

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور لم يتبع التعليمات في البرمجة، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: عدد الإخفاقات ↑.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

Gemini 3.5 Flash 1

أسباب الفشل

إجابة خاطئة230 خطأ API43 انتهت المهلة23 لا توجد إجابة18 لم يتبع التعليمات16 تنسيق إضافي12

الفئات

حل الألغاز82 الذكاء العام74 حيل مضادة للذكاء الاصطناعي31 البرمجة16 اتباع التعليمات15 استدعاء الأدوات6 خاص بالمجال1 مجمّع1

16/16

الترتيب	النموذج	الشركة	عدد لم يتبع التعليمات	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#11	Gemini 3.5 Flash medium	Google	1	7.9	$0.582	2/3	12.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.582 زمن الاستجابة (المتوسط) 12.6s
#48	Claude Opus 4.6 medium	Anthropic	1	5.7	$2.053	1/3	30.1s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $2.053 زمن الاستجابة (المتوسط) 30.1s
#69	Claude Opus 4.8 none	Anthropic	1	5.5	$0.539	1/3	3.29s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.539 زمن الاستجابة (المتوسط) 3.29s
#70	DeepSeek V4 Pro none	DeepSeek	1	5.6	$0.034	1/3	13.4s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.034 زمن الاستجابة (المتوسط) 13.4s
#73	GLM 5.2 none	Z.ai	1	3.7	$0.030	0/3	7.55s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.030 زمن الاستجابة (المتوسط) 7.55s
#84	Gemini 3.5 Flash minimal	Google	1	5.6	$0.108	1/3	2.75s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.108 زمن الاستجابة (المتوسط) 2.75s
#127	Kimi K2.6 none	Moonshot AI	1	5.5	$0.078	1/3	82.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.078 زمن الاستجابة (المتوسط) 82.6s
#132	Grok 4.1 Fast medium	X AI	1	7.8	$0.069	0/1	23.6s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.069 زمن الاستجابة (المتوسط) 23.6s
#136	MiMo-V2.5-Pro none	Xiaomi	1	4.3	$0.017	0/3	1.41s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.017 زمن الاستجابة (المتوسط) 1.41s
#139	Qwen3.5 Plus 2026-04-20 none	Qwen	1	3.9	$0.032	0/3	1.69s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.032 زمن الاستجابة (المتوسط) 1.69s
#145	DeepSeek V3.2 none	DeepSeek	1	3.1	$0.017	0/3	14.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.017 زمن الاستجابة (المتوسط) 14.5s
#157	Laguna M.1 medium	Poolside	1	1.5	$0.033	0/1	35.6s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.033 زمن الاستجابة (المتوسط) 35.6s
#159	Cobuddy medium	Baidu	1	3.7	$0.000	0/3	79.2s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 79.2s
#178	MiMo-V2-Flash none	Xiaomi	1	4.3	$0.025	0/3	2.64s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 2.64s
#182	Granite 4.1 8B none	IBM Granite	1	4.5	$0.003	0/3	775ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.003 زمن الاستجابة (المتوسط) 775ms

تصفية النماذج

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

البرمجة: لم يتبع التعليمات

تصفية النماذج

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية