ترتيب استدعاء الأدوات x إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في استدعاء الأدوات، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

أسباب الفشل

خطأ API17 استدعاء أداة غير صالح9 لم يتبع التعليمات8 إجابة خاطئة3 لا توجد إجابة2

الفئات

خاص بالمجال412 حيل مضادة للذكاء الاصطناعي293 البرمجة252 حل الألغاز201 معلومات عامة168 مجمّع68 اتباع التعليمات61 الذكاء العام59 تحليل البيانات واستخراجها41 استدعاء الأدوات3

3/3

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#55	GPT-5.6 Terra low	OpenAI	1	4.7	$0.519	0/1	6.69s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.519 زمن الاستجابة (المتوسط) 6.69s
#176	GLM 4.7 Flash none	Z.ai	1	2.8	$0.016	0/1	7.05s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.016 زمن الاستجابة (المتوسط) 7.05s
#203	Grok 4.1 Fast none	X AI	1	2.8	$0.008	0/1	5.51s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 5.51s

تصفية النماذج