ترتيب البرمجة x خطأ API

إخفاقات الفئات في AI BENCHY

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور خطأ API في البرمجة، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: اختبارات صحيحة ↑.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

Mimo V2 Omni 1

أسباب الفشل

إجابة خاطئة230 خطأ API43 انتهت المهلة23 لا توجد إجابة18 لم يتبع التعليمات16 تنسيق إضافي12

الفئات

البرمجة43 استدعاء الأدوات16 تحليل البيانات واستخراجها14 مجمّع13 معلومات عامة13 الذكاء العام12 حل الألغاز12 حيل مضادة للذكاء الاصطناعي12 خاص بالمجال5 اتباع التعليمات1

28/28

الترتيب	النموذج	الشركة	عدد خطأ API	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#86	Mimo V2 Omni medium	Xiaomi	1	3.3	$0.683	0/3	183.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.683 زمن الاستجابة (المتوسط) 183.9s
#100	Nemotron 3 Super medium	NVIDIA	3	3.1	$0.020	0/3	147.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.020 زمن الاستجابة (المتوسط) 147.3s
#105	Gemini 3 PRO Preview medium	Google	3	3.0	$0.385	0/3	0ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.385 زمن الاستجابة (المتوسط) 0ms
#129	Qwen3.6 Plus Preview medium	Qwen	1	9.8	$0.000	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 0ms
#130	Mimo V2 Omni none	Xiaomi	1	4.4	$0.021	0/3	2.75s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.021 زمن الاستجابة (المتوسط) 2.75s
#151	Hunter Alpha medium	OpenRouter	1	9.8	$0.000	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 0ms
#156	Trinity Large Preview none	Arcee AI	2	3.7	$0.008	0/3	14.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 14.3s
#159	Cobuddy medium	Baidu	1	3.7	$0.000	0/3	79.2s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 79.2s
#166	Ling-2.6-1T none	Inclusionai	2	3.8	$0.005	0/3	10.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.005 زمن الاستجابة (المتوسط) 10.6s
#171	Elephant Alpha none	Openrouter	2	4.2	$0.000	0/3	1.39s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 1.39s
#172	Elephant Alpha medium	Openrouter	2	3.7	$0.000	0/3	1.30s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 1.30s
#173	Hunter Alpha none	OpenRouter	1	9.8	$0.000	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 0ms
#177	Hy3 preview none	Tencent	2	2.7	$0.003	0/3	4.56s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.003 زمن الاستجابة (المتوسط) 4.56s
#187	Step 3.5 Flash none	Stepfun	1	9.8	$0.020	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.020 زمن الاستجابة (المتوسط) 0ms
#33	Qwen3.5 Plus 2026-02-15 medium	Qwen	1	6.6	$0.310	1/3	180.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.310 زمن الاستجابة (المتوسط) 180.7s

تصفية النماذج

أفضل النماذج حسب عدد خطأ API

عدد خطأ API مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

البرمجة: خطأ API

تصفية النماذج

أفضل النماذج حسب عدد خطأ API

عدد خطأ API مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية