ترتيب النماذج لفئة استدعاء الأدوات

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في استدعاء الأدوات، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: اختبارات صحيحة ↓.

النماذج المعروضة

متوسط درجة استدعاء الأدوات

8.8

أفضل نموذج

Gemini 3.6 Flash 10.0

أسباب الفشل

مع سبب الفشل خطأ API17 مع سبب الفشل استدعاء أداة غير صالح9 مع سبب الفشل لم يتبع التعليمات8 مع سبب الفشل إجابة خاطئة3 مع سبب الفشل لا توجد إجابة2

216/216

الترتيب	النموذج	الشركة	درجة استدعاء الأدوات	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#86	DeepSeek V4 Pro none	DeepSeek	10.0	6.9	$0.096	1/1	7.40s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.096 زمن الاستجابة (المتوسط) 7.40s
#87	GPT-5.6 Sol none	OpenAI	10.0	6.9	$0.524	1/1	3.70s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.524 زمن الاستجابة (المتوسط) 3.70s
#88	MiMo-V2.5-Pro medium	Xiaomi	10.0	6.9	$0.187	1/1	16.9s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.187 زمن الاستجابة (المتوسط) 16.9s
#89	Qwen3.6 Flash medium	Qwen	10.0	6.9	$0.738	1/1	4.00s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.738 زمن الاستجابة (المتوسط) 4.00s
#90	Step 3.7 Flash high	Stepfun	10.0	6.9	$1.207	1/1	2.79s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $1.207 زمن الاستجابة (المتوسط) 2.79s
#91	GPT-5.5 none	OpenAI	10.0	6.9	$0.544	1/1	3.90s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.544 زمن الاستجابة (المتوسط) 3.90s
#92	Gemini 3.5 Flash minimal	Google	10.0	6.8	$0.300	1/1	2.79s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.300 زمن الاستجابة (المتوسط) 2.79s
#93	Gemini 3 Flash Preview none	Google	10.0	6.8	$0.085	1/1	3.35s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.085 زمن الاستجابة (المتوسط) 3.35s
#95	Gemini 3.5 Flash-Lite low	Google	9.8	6.7	$0.145	1/1	1.76s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.145 زمن الاستجابة (المتوسط) 1.76s
#96	LongCat 2.0 low	Meituan	10.0	6.7	$0.391	1/1	10.8s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.391 زمن الاستجابة (المتوسط) 10.8s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	10.0	6.7	$0.476	1/1	5.93s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.476 زمن الاستجابة (المتوسط) 5.93s
#99	Claude Opus 4.7 none	Anthropic	10.0	6.6	$0.505	1/1	4.74s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.505 زمن الاستجابة (المتوسط) 4.74s
#100	Gemma 4 26B A4B medium	Google	10.0	6.6	$0.089	1/1	9.01s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.089 زمن الاستجابة (المتوسط) 9.01s
#101	GLM 5.2 none	Z.ai	10.0	6.6	$0.128	1/1	15.8s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.128 زمن الاستجابة (المتوسط) 15.8s
#102	LongCat 2.0 high	Meituan	10.0	6.6	$0.469	1/1	10.0s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.469 زمن الاستجابة (المتوسط) 10.0s

ترتيب استدعاء الأدوات

تصفية النماذج

أفضل النماذج حسب درجة استدعاء الأدوات

درجة استدعاء الأدوات مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)