ترتيب مجمّع x استدعاء أداة غير صالح

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور استدعاء أداة غير صالح في مجمّع، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

Muse Spark 1.1 2

أسباب الفشل

استدعاء أداة غير صالح91 إجابة خاطئة68 لا توجد إجابة29 خطأ API26 انتهت المهلة5 تنسيق إضافي1 لم يتبع التعليمات1

الفئات

مجمّع91 استدعاء الأدوات9

77/77

الترتيب	النموذج	الشركة	عدد استدعاء أداة غير صالح	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#27	Muse Spark 1.1 high	Meta	2	5.9	$1.694	0/2	70.3s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $1.694 زمن الاستجابة (المتوسط) 70.3s
#88	Gemini 3.5 Flash minimal	Google	2	3.0	$0.300	0/2	14.4s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.300 زمن الاستجابة (المتوسط) 14.4s
#99	Qwen3.6 27B medium	Qwen	2	6.7	$0.779	0/2	584.1s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.779 زمن الاستجابة (المتوسط) 584.1s
#123	Inkling low	Thinkingmachines	2	2.9	$0.187	0/2	22.7s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.187 زمن الاستجابة (المتوسط) 22.7s
#124	Qwen3.6 Flash none	Qwen	2	3.8	$0.062	0/2	26.5s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.062 زمن الاستجابة (المتوسط) 26.5s
#150	DeepSeek V4 Flash none	DeepSeek	2	4.6	$0.044	0/2	179.6s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.044 زمن الاستجابة (المتوسط) 179.6s
#152	Qwen3.6 27B none	Qwen	2	3.2	$0.087	0/2	83.1s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.087 زمن الاستجابة (المتوسط) 83.1s
#169	Qwen3.5-9B none	Qwen	2	3.0	$0.021	0/2	194.0s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.021 زمن الاستجابة (المتوسط) 194.0s
#171	North Mini Code none	Cohere	2	3.2	$0.000	0/2	96.2s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 96.2s
#173	DeepSeek V3.2 none	DeepSeek	2	4.8	$0.054	0/2	113.5s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.054 زمن الاستجابة (المتوسط) 113.5s
#176	GLM 4.7 Flash none	Z.ai	2	3.0	$0.016	0/2	50.2s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.016 زمن الاستجابة (المتوسط) 50.2s
#178	Ling-2.6-flash none	Inclusionai	2	3.0	$0.002	0/2	35.7s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.002 زمن الاستجابة (المتوسط) 35.7s
#194	GLM 4.7 Flash medium	Z.ai	2	2.9	$0.166	0/2	802.8s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.166 زمن الاستجابة (المتوسط) 802.8s
#201	Granite 4.1 8B none	IBM Granite	2	3.0	$0.007	0/2	9.28s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.007 زمن الاستجابة (المتوسط) 9.28s
#2	Gemini 3.5 Flash high	Google	1	8.2	$1.976	1/2	84.1s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $1.976 زمن الاستجابة (المتوسط) 84.1s

1 2 3 4 5 6

→

تصفية النماذج

أفضل النماذج حسب عدد استدعاء أداة غير صالح

عدد استدعاء أداة غير صالح مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

مجمّع: استدعاء أداة غير صالح

تصفية النماذج

أفضل النماذج حسب عدد استدعاء أداة غير صالح

عدد استدعاء أداة غير صالح مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية