ترتيب مجمّع x استدعاء أداة غير صالح

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور استدعاء أداة غير صالح في مجمّع، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

Muse Spark 1.1 2

أسباب الفشل

استدعاء أداة غير صالح91 إجابة خاطئة68 لا توجد إجابة29 خطأ API26 انتهت المهلة5 تنسيق إضافي1 لم يتبع التعليمات1

الفئات

مجمّع91 استدعاء الأدوات9

77/77

الترتيب	النموذج	الشركة	عدد استدعاء أداة غير صالح	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#8	Qwen3.7 Max medium	Qwen	1	8.7	$1.116	1/2	287.8s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $1.116 زمن الاستجابة (المتوسط) 287.8s
#11	Gemini 3.5 Flash low	Google	1	8.2	$0.433	1/2	30.0s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.433 زمن الاستجابة (المتوسط) 30.0s
#16	Muse Spark 1.1 medium	Meta	1	8.3	$1.357	1/2	42.6s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $1.357 زمن الاستجابة (المتوسط) 42.6s
#17	Claude Fable 5 medium	Anthropic	1	6.5	$3.478	1/2	27.5s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $3.478 زمن الاستجابة (المتوسط) 27.5s
#23	Claude Sonnet 5 medium	Anthropic	1	7.3	$0.922	1/2	51.9s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.922 زمن الاستجابة (المتوسط) 51.9s
#24	Muse Spark 1.1 low	Meta	1	6.6	$0.647	1/2	29.4s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.647 زمن الاستجابة (المتوسط) 29.4s
#28	Inkling high	Thinkingmachines	1	7.3	$1.006	1/2	63.8s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $1.006 زمن الاستجابة (المتوسط) 63.8s
#29	Step 3.7 Flash medium	Stepfun	1	7.3	$0.515	1/2	80.9s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.515 زمن الاستجابة (المتوسط) 80.9s
#34	GPT-5.6 Terra high	OpenAI	1	8.7	$1.055	1/2	13.7s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $1.055 زمن الاستجابة (المتوسط) 13.7s
#36	Qwen3.7 Plus medium	Qwen	1	8.2	$0.267	1/2	190.3s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.267 زمن الاستجابة (المتوسط) 190.3s
#45	DeepSeek V4 Flash high	DeepSeek	1	6.4	$0.042	1/2	104.1s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.042 زمن الاستجابة (المتوسط) 104.1s
#51	Nemotron 3 Ultra medium	NVIDIA	1	6.3	$0.774	1/2	218.2s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.774 زمن الاستجابة (المتوسط) 218.2s
#55	GPT-5.6 Terra low	OpenAI	1	8.7	$0.519	1/2	9.68s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.519 زمن الاستجابة (المتوسط) 9.68s
#56	GPT-5.4 Mini medium	OpenAI	1	6.9	$0.756	1/2	59.6s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.756 زمن الاستجابة (المتوسط) 59.6s
#57	Qwen3.5 Plus 2026-02-15 medium	Qwen	1	6.9	$0.437	1/2	175.8s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.437 زمن الاستجابة (المتوسط) 175.8s

←

1 2 3 4 5 6

→

تصفية النماذج

أفضل النماذج حسب عدد استدعاء أداة غير صالح

عدد استدعاء أداة غير صالح مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

مجمّع: استدعاء أداة غير صالح

تصفية النماذج

أفضل النماذج حسب عدد استدعاء أداة غير صالح

عدد استدعاء أداة غير صالح مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية