ترتيب استدعاء الأدوات x استدعاء أداة غير صالح

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور استدعاء أداة غير صالح في استدعاء الأدوات، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: اختبارات صحيحة ↑.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

Inkling 1

أسباب الفشل

خطأ API17 استدعاء أداة غير صالح9 لم يتبع التعليمات8 إجابة خاطئة3 لا توجد إجابة2

الفئات

مجمّع91 استدعاء الأدوات9

9/9

الترتيب	النموذج	الشركة	عدد استدعاء أداة غير صالح	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#28	Inkling high	Thinkingmachines	1	3.0	$1.006	0/1	6.52s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $1.006 زمن الاستجابة (المتوسط) 6.52s
#32	Inkling medium	Thinkingmachines	1	3.0	$0.391	0/1	4.48s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.391 زمن الاستجابة (المتوسط) 4.48s
#93	GLM 5V Turbo medium	Z.ai	1	7.0	$0.457	0/1	12.5s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.457 زمن الاستجابة (المتوسط) 12.5s
#162	Ling-2.6-1T none	Inclusionai	1	3.0	$0.016	0/1	25.7s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.016 زمن الاستجابة (المتوسط) 25.7s
#178	Ling-2.6-flash none	Inclusionai	1	3.0	$0.002	0/1	18.8s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.002 زمن الاستجابة (المتوسط) 18.8s
#193	Elephant Alpha none	Openrouter	1	3.0	$0.000	0/1	2.79s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 2.79s
#195	Elephant Alpha medium	Openrouter	1	3.0	$0.000	0/1	2.83s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 2.83s
#198	Laguna Xs.2 medium	Poolside	1	4.7	$0.015	0/1	3.39s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.015 زمن الاستجابة (المتوسط) 3.39s
#205	Laguna Xs.2 none	Poolside	1	3.0	$0.004	0/1	1.93s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.004 زمن الاستجابة (المتوسط) 1.93s

تصفية النماذج

أفضل النماذج حسب عدد استدعاء أداة غير صالح

عدد استدعاء أداة غير صالح مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

استدعاء الأدوات: استدعاء أداة غير صالح

تصفية النماذج

أفضل النماذج حسب عدد استدعاء أداة غير صالح

عدد استدعاء أداة غير صالح مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية