ترتيب مجمّع x استدعاء أداة غير صالح

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور استدعاء أداة غير صالح في مجمّع، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: زمن الاستجابة (المتوسط) ↓.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

Qwen3.6 35B A3B 1

أسباب الفشل

استدعاء أداة غير صالح91 إجابة خاطئة68 لا توجد إجابة29 خطأ API26 انتهت المهلة5 تنسيق إضافي1 لم يتبع التعليمات1

الفئات

مجمّع91 استدعاء الأدوات9

77/77

الترتيب	النموذج	الشركة	عدد استدعاء أداة غير صالح	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#90	Qwen3.6 35B A3B medium	Qwen	1	3.0	$0.746	0/2	817.6s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.746 زمن الاستجابة (المتوسط) 817.6s
#194	GLM 4.7 Flash medium	Z.ai	2	2.9	$0.166	0/2	802.8s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.166 زمن الاستجابة (المتوسط) 802.8s
#58	Qwen3.5-27B medium	Qwen	1	7.3	$1.627	1/2	595.2s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $1.627 زمن الاستجابة (المتوسط) 595.2s
#99	Qwen3.6 27B medium	Qwen	2	6.7	$0.779	0/2	584.1s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.779 زمن الاستجابة (المتوسط) 584.1s
#137	North Mini Code medium	Cohere	1	2.9	$0.000	0/2	554.9s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 554.9s
#119	Qwen3.5-35B-A3B medium	Qwen	1	3.8	$0.837	0/2	512.8s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.837 زمن الاستجابة (المتوسط) 512.8s
#95	Gemma 4 26B A4B medium	Google	1	6.3	$0.089	1/2	492.9s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.089 زمن الاستجابة (المتوسط) 492.9s
#68	Kimi K2.6 medium	Moonshot AI	1	6.9	$1.036	1/2	458.6s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $1.036 زمن الاستجابة (المتوسط) 458.6s
#110	Gemma 4 31B medium	Google	1	2.9	$0.163	0/2	433.1s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.163 زمن الاستجابة (المتوسط) 433.1s
#72	Qwen3.5-122B-A10B medium	Qwen	1	6.4	$1.046	1/2	313.5s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $1.046 زمن الاستجابة (المتوسط) 313.5s
#85	Qwen3.6 Flash medium	Qwen	1	6.5	$0.738	1/2	299.2s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.738 زمن الاستجابة (المتوسط) 299.2s
#8	Qwen3.7 Max medium	Qwen	1	8.7	$1.116	1/2	287.8s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $1.116 زمن الاستجابة (المتوسط) 287.8s
#114	Qwen3.5-Flash medium	Qwen	1	6.4	$0.139	1/2	266.6s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.139 زمن الاستجابة (المتوسط) 266.6s
#108	Ring-2.6-1T medium	Inclusionai	1	7.3	$0.103	1/2	257.3s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.103 زمن الاستجابة (المتوسط) 257.3s
#125	Qwen3.5-Flash none	Qwen	1	2.9	$0.073	0/2	243.6s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.073 زمن الاستجابة (المتوسط) 243.6s

1 2 3 4 5 6

→

تصفية النماذج

أفضل النماذج حسب عدد استدعاء أداة غير صالح

عدد استدعاء أداة غير صالح مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

مجمّع: استدعاء أداة غير صالح

تصفية النماذج

أفضل النماذج حسب عدد استدعاء أداة غير صالح

عدد استدعاء أداة غير صالح مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية