ترتيب مجمّع x استدعاء أداة غير صالح

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور استدعاء أداة غير صالح في مجمّع، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: اختبارات صحيحة ↑.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

Muse Spark 1.1 2

أسباب الفشل

استدعاء أداة غير صالح91 إجابة خاطئة68 لا توجد إجابة29 خطأ API26 انتهت المهلة5 تنسيق إضافي1 لم يتبع التعليمات1

الفئات

مجمّع91 استدعاء الأدوات9

77/77

الترتيب	النموذج	الشركة	عدد استدعاء أداة غير صالح	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#27	Muse Spark 1.1 high	Meta	2	5.9	$1.694	0/2	70.3s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $1.694 زمن الاستجابة (المتوسط) 70.3s
#88	Gemini 3.5 Flash minimal	Google	2	3.0	$0.300	0/2	14.4s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.300 زمن الاستجابة (المتوسط) 14.4s
#90	Qwen3.6 35B A3B medium	Qwen	1	3.0	$0.746	0/2	817.6s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.746 زمن الاستجابة (المتوسط) 817.6s
#92	KAT-Coder-Pro V2.5 none	Kwaipilot	1	4.1	$0.476	0/2	183.1s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.476 زمن الاستجابة (المتوسط) 183.1s
#93	GLM 5V Turbo medium	Z.ai	1	3.4	$0.457	0/1	15.1s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.457 زمن الاستجابة (المتوسط) 15.1s
#99	Qwen3.6 27B medium	Qwen	2	6.7	$0.779	0/2	584.1s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.779 زمن الاستجابة (المتوسط) 584.1s
#104	Gemini 3.1 Flash Lite Preview low	Google	1	3.0	$0.646	0/2	160.6s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.646 زمن الاستجابة (المتوسط) 160.6s
#105	Gemini 3.1 Flash Lite low	Google	1	3.2	$0.621	0/2	161.2s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.621 زمن الاستجابة (المتوسط) 161.2s
#110	Gemma 4 31B medium	Google	1	2.9	$0.163	0/2	433.1s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.163 زمن الاستجابة (المتوسط) 433.1s
#117	GPT-5.6 Luna low	OpenAI	1	2.8	$0.249	0/2	13.7s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.249 زمن الاستجابة (المتوسط) 13.7s
#118	Gemini 2.5 Flash none	Google	1	3.0	$0.017	0/2	61.2s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.017 زمن الاستجابة (المتوسط) 61.2s
#119	Qwen3.5-35B-A3B medium	Qwen	1	3.8	$0.837	0/2	512.8s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.837 زمن الاستجابة (المتوسط) 512.8s
#123	Inkling low	Thinkingmachines	2	2.9	$0.187	0/2	22.7s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.187 زمن الاستجابة (المتوسط) 22.7s
#124	Qwen3.6 Flash none	Qwen	2	3.8	$0.062	0/2	26.5s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.062 زمن الاستجابة (المتوسط) 26.5s
#125	Qwen3.5-Flash none	Qwen	1	2.9	$0.073	0/2	243.6s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.073 زمن الاستجابة (المتوسط) 243.6s

1 2 3 4 5 6

→

تصفية النماذج

أفضل النماذج حسب عدد استدعاء أداة غير صالح

عدد استدعاء أداة غير صالح مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

مجمّع: استدعاء أداة غير صالح

تصفية النماذج

أفضل النماذج حسب عدد استدعاء أداة غير صالح

عدد استدعاء أداة غير صالح مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية