ترتيب البرمجة x تنسيق إضافي

إخفاقات الفئات في AI BENCHY

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور تنسيق إضافي في البرمجة، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: زمن الاستجابة (المتوسط) ↓.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

MiniMax M3 1

أسباب الفشل

إجابة خاطئة230 خطأ API43 انتهت المهلة23 لا توجد إجابة18 لم يتبع التعليمات16 تنسيق إضافي12

الفئات

حيل مضادة للذكاء الاصطناعي20 خاص بالمجال13 البرمجة12 حل الألغاز6 تحليل البيانات واستخراجها4 اتباع التعليمات3 مجمّع1

12/12

الترتيب	النموذج	الشركة	عدد تنسيق إضافي	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#51	MiniMax M3 medium	Minimax	1	6.1	$0.131	1/3	144.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.131 زمن الاستجابة (المتوسط) 144.7s
#76	GLM 5.1 medium	Z.ai	1	4.6	$0.288	0/3	109.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.288 زمن الاستجابة (المتوسط) 109.6s
#53	Grok Build 0.1 medium	X AI	1	5.7	$0.927	1/3	108.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.927 زمن الاستجابة (المتوسط) 108.5s
#63	MiMo-V2.5-Pro medium	Xiaomi	1	6.2	$0.106	1/3	92.1s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.106 زمن الاستجابة (المتوسط) 92.1s
#46	Grok 4.3 medium	X AI	1	5.9	$0.614	1/3	41.2s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.614 زمن الاستجابة (المتوسط) 41.2s
#126	Owl Alpha none	Openrouter	1	5.6	$0.000	1/3	36.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 36.9s
#38	Claude Sonnet 4.6 medium	Anthropic	1	5.7	$1.418	1/3	33.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $1.418 زمن الاستجابة (المتوسط) 33.3s
#48	Claude Opus 4.6 medium	Anthropic	1	5.7	$2.053	1/3	30.1s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $2.053 زمن الاستجابة (المتوسط) 30.1s
#45	Claude Opus 4.8 low	Anthropic	1	6.6	$1.270	1/3	7.58s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $1.270 زمن الاستجابة (المتوسط) 7.58s
#67	Claude Sonnet 4.6 none	Anthropic	1	5.5	$0.316	1/3	5.19s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.316 زمن الاستجابة (المتوسط) 5.19s
#130	Mimo V2 Omni none	Xiaomi	1	4.4	$0.021	0/3	2.75s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.021 زمن الاستجابة (المتوسط) 2.75s
#182	Granite 4.1 8B none	IBM Granite	1	4.5	$0.003	0/3	775ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.003 زمن الاستجابة (المتوسط) 775ms

تصفية النماذج

أفضل النماذج حسب عدد تنسيق إضافي

عدد تنسيق إضافي مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

البرمجة: تنسيق إضافي

تصفية النماذج

أفضل النماذج حسب عدد تنسيق إضافي

عدد تنسيق إضافي مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية