ترتيب البرمجة x إجابة خاطئة

إخفاقات الفئات في AI BENCHY

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في البرمجة، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: زمن الاستجابة (المتوسط) ↓.

النماذج المعروضة

إجمالي الإخفاقات

230

النموذج الأكثر تأثرًا

North Mini Code 3

أسباب الفشل

إجابة خاطئة230 خطأ API43 انتهت المهلة23 لا توجد إجابة18 لم يتبع التعليمات16 تنسيق إضافي12

الفئات

خاص بالمجال367 حيل مضادة للذكاء الاصطناعي270 البرمجة230 حل الألغاز172 معلومات عامة149 مجمّع58 اتباع التعليمات56 الذكاء العام49 تحليل البيانات واستخراجها36 استدعاء الأدوات3

134/134

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#123	North Mini Code medium	Cohere	3	4.5	$0.000	0/3	320.4s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 320.4s
#60	DeepSeek V3.2 medium	DeepSeek	1	6.0	$0.044	1/3	248.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.044 زمن الاستجابة (المتوسط) 248.7s
#62	Seed-2.0-Mini medium	Bytedance Seed	1	5.5	$0.044	1/3	220.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.044 زمن الاستجابة (المتوسط) 220.5s
#75	Step 3.7 Flash high	Stepfun	1	4.0	$1.148	0/3	206.2s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $1.148 زمن الاستجابة (المتوسط) 206.2s
#165	MiniMax M2.5 medium	Minimax	1	3.4	$0.303	0/3	188.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.303 زمن الاستجابة (المتوسط) 188.6s
#86	Mimo V2 Omni medium	Xiaomi	1	3.3	$0.683	0/3	183.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.683 زمن الاستجابة (المتوسط) 183.9s
#33	Qwen3.5 Plus 2026-02-15 medium	Qwen	1	6.6	$0.310	1/3	180.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.310 زمن الاستجابة (المتوسط) 180.7s
#34	Qwen3.5-27B medium	Qwen	2	6.2	$0.536	1/3	160.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.536 زمن الاستجابة (المتوسط) 160.7s
#21	Seed-2.0-Lite medium	Bytedance Seed	1	8.0	$0.175	2/3	156.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.175 زمن الاستجابة (المتوسط) 156.7s
#26	Grok 4.5 medium	X AI	1	7.6	$1.696	2/3	155.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $1.696 زمن الاستجابة (المتوسط) 155.7s
#36	Qwen3.6 Plus medium	Qwen	1	6.1	$0.294	1/3	153.1s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.294 زمن الاستجابة (المتوسط) 153.1s
#14	Qwen3.6 Max Preview medium	Qwen	1	8.8	$0.960	2/3	146.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.960 زمن الاستجابة (المتوسط) 146.5s
#41	Qwen3.5 Plus 2026-04-20 medium	Qwen	2	6.2	$0.317	1/3	125.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.317 زمن الاستجابة (المتوسط) 125.3s
#44	Qwen3.5-122B-A10B medium	Qwen	1	6.0	$0.588	1/3	114.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.588 زمن الاستجابة (المتوسط) 114.5s
#65	Grok 4.20 medium	X AI	2	6.3	$0.609	1/3	109.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.609 زمن الاستجابة (المتوسط) 109.9s

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

البرمجة: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية