ترتيب مجمّع x استدعاء أداة غير صالح

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور استدعاء أداة غير صالح في مجمّع، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: زمن الاستجابة (المتوسط) ↑.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

Laguna M.1 1

أسباب الفشل

استدعاء أداة غير صالح91 إجابة خاطئة68 لا توجد إجابة29 خطأ API26 انتهت المهلة5 تنسيق إضافي1 لم يتبع التعليمات1

الفئات

مجمّع91 استدعاء الأدوات9

77/77

الترتيب	النموذج	الشركة	عدد استدعاء أداة غير صالح	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#192	Laguna M.1 none	Poolside	1	1.5	$0.009	0/1	4.32s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.009 زمن الاستجابة (المتوسط) 4.32s
#197	Grok 4.20 none	X AI	1	1.5	$0.057	0/1	6.04s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.057 زمن الاستجابة (المتوسط) 6.04s
#191	Grok 4.20 Beta none	X AI	1	1.5	$0.087	0/1	6.48s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.087 زمن الاستجابة (المتوسط) 6.48s
#159	GPT-5.6 Luna none	OpenAI	1	3.2	$0.142	0/2	6.68s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.142 زمن الاستجابة (المتوسط) 6.68s
#132	GPT-5.6 Terra none	OpenAI	1	2.9	$0.349	0/2	7.02s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.349 زمن الاستجابة (المتوسط) 7.02s
#78	Mercury 2 medium	Inception	1	6.7	$0.093	1/2	7.84s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.093 زمن الاستجابة (المتوسط) 7.84s
#201	Granite 4.1 8B none	IBM Granite	2	3.0	$0.007	0/2	9.28s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.007 زمن الاستجابة (المتوسط) 9.28s
#55	GPT-5.6 Terra low	OpenAI	1	8.7	$0.519	1/2	9.68s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.519 زمن الاستجابة (المتوسط) 9.68s
#160	Laguna XS 2.1 none	Poolside	1	3.0	$0.008	0/2	10.4s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 10.4s
#117	GPT-5.6 Luna low	OpenAI	1	2.8	$0.249	0/2	13.7s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.249 زمن الاستجابة (المتوسط) 13.7s
#34	GPT-5.6 Terra high	OpenAI	1	8.7	$1.055	1/2	13.7s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $1.055 زمن الاستجابة (المتوسط) 13.7s
#88	Gemini 3.5 Flash minimal	Google	2	3.0	$0.300	0/2	14.4s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.300 زمن الاستجابة (المتوسط) 14.4s
#93	GLM 5V Turbo medium	Z.ai	1	3.4	$0.457	0/1	15.1s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.457 زمن الاستجابة (المتوسط) 15.1s
#64	Gemini 3.1 Flash Lite Preview medium	Google	1	7.2	$0.115	1/2	16.6s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.115 زمن الاستجابة (المتوسط) 16.6s
#65	Gemini 3.1 Flash Lite medium	Google	1	7.2	$0.117	1/2	18.5s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.117 زمن الاستجابة (المتوسط) 18.5s

1 2 3 4 5 6

→

تصفية النماذج

أفضل النماذج حسب عدد استدعاء أداة غير صالح

عدد استدعاء أداة غير صالح مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

مجمّع: استدعاء أداة غير صالح

تصفية النماذج

أفضل النماذج حسب عدد استدعاء أداة غير صالح

عدد استدعاء أداة غير صالح مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية