ترتيب النماذج لفئة استدعاء الأدوات

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في استدعاء الأدوات، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: المقياس ↑.

النماذج المعروضة

متوسط درجة استدعاء الأدوات

8.8

أفضل نموذج

Hy3 preview 2.8

أسباب الفشل

مع سبب الفشل خطأ API17 مع سبب الفشل استدعاء أداة غير صالح9 مع سبب الفشل لم يتبع التعليمات8 مع سبب الفشل إجابة خاطئة3 مع سبب الفشل لا توجد إجابة2

216/216

الترتيب	النموذج	الشركة	درجة استدعاء الأدوات	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#105	Qwen3.6 27B medium	Qwen	10.0	6.5	$0.779	1/1	16.9s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.779 زمن الاستجابة (المتوسط) 16.9s
#106	Hy3 preview medium	Tencent	10.0	6.5	$0.018	1/1	15.0s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.018 زمن الاستجابة (المتوسط) 15.0s
#107	MiMo-V2.5 medium	Xiaomi	10.0	6.5	$0.082	1/1	7.29s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.082 زمن الاستجابة (المتوسط) 7.29s
#108	Laguna XS 2.1 medium	Poolside	10.0	6.5	$0.068	1/1	3.01s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.068 زمن الاستجابة (المتوسط) 3.01s
#109	Qwen3.5-27B none	Qwen	10.0	6.5	$0.090	1/1	3.54s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.090 زمن الاستجابة (المتوسط) 3.54s
#110	Gemini 3.1 Flash Lite Preview low	Google	10.0	6.5	$0.646	1/1	9.54s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.646 زمن الاستجابة (المتوسط) 9.54s
#111	Gemini 3.1 Flash Lite low	Google	10.0	6.5	$0.621	1/1	5.66s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.621 زمن الاستجابة (المتوسط) 5.66s
#112	Gemini 3.1 Flash Lite Preview none	Google	10.0	6.4	$0.052	1/1	3.39s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.052 زمن الاستجابة (المتوسط) 3.39s
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	10.0	6.4	$0.073	1/1	3.33s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.073 زمن الاستجابة (المتوسط) 3.33s
#114	Ring-2.6-1T medium	Inclusionai	10.0	6.3	$0.103	1/1	104.4s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.103 زمن الاستجابة (المتوسط) 104.4s
#115	Mimo V2 PRO medium	Xiaomi	10.0	6.3	$0.333	1/1	8.19s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.333 زمن الاستجابة (المتوسط) 8.19s
#117	LongCat 2.0 none	Meituan	10.0	6.3	$0.044	1/1	6.64s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.044 زمن الاستجابة (المتوسط) 6.64s
#118	Claude Sonnet 5 none	Anthropic	10.0	6.3	$0.548	1/1	6.80s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.548 زمن الاستجابة (المتوسط) 6.80s
#119	MiMo-V2-Flash medium	Xiaomi	10.0	6.3	$0.043	1/1	27.8s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.043 زمن الاستجابة (المتوسط) 27.8s
#120	Qwen3.5-Flash medium	Qwen	10.0	6.2	$0.139	1/1	10.3s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.139 زمن الاستجابة (المتوسط) 10.3s

←

1 9 10 11 15

→

ترتيب استدعاء الأدوات

تصفية النماذج

أفضل النماذج حسب درجة استدعاء الأدوات

درجة استدعاء الأدوات مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)