ترتيب النماذج لفئة استدعاء الأدوات

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في استدعاء الأدوات، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: زمن الاستجابة (المتوسط) ↓.

النماذج المعروضة

متوسط درجة استدعاء الأدوات

8.8

أفضل نموذج

Ring-2.6-1T 10.0

أسباب الفشل

مع سبب الفشل خطأ API17 مع سبب الفشل استدعاء أداة غير صالح9 مع سبب الفشل لم يتبع التعليمات8 مع سبب الفشل إجابة خاطئة3 مع سبب الفشل لا توجد إجابة2

216/216

الترتيب	النموذج	الشركة	درجة استدعاء الأدوات	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#10	Gemini 3.1 Pro Preview medium	Google	10.0	9.2	$1.361	1/1	23.1s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $1.361 زمن الاستجابة (المتوسط) 23.1s
#154	Owl Alpha none	Openrouter	10.0	5.6	$0.000	1/1	22.8s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 22.8s
#42	GLM 5.2 medium	Z.ai	10.0	7.8	$0.187	1/1	20.4s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.187 زمن الاستجابة (المتوسط) 20.4s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	10.0	6.9	$0.467	1/1	19.0s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.467 زمن الاستجابة (المتوسط) 19.0s
#184	Ling-2.6-flash none	Inclusionai	3.0	4.9	$0.002	0/1	18.8s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.002 زمن الاستجابة (المتوسط) 18.8s
#29	GPT-5 Mini medium	OpenAI	10.0	8.1	$0.237	1/1	18.6s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.237 زمن الاستجابة (المتوسط) 18.6s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	10.0	7.4	$0.387	1/1	18.4s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.387 زمن الاستجابة (المتوسط) 18.4s
#22	Qwen3.6 Max Preview medium	Qwen	10.0	8.4	$1.143	1/1	18.3s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $1.143 زمن الاستجابة (المتوسط) 18.3s
#159	Hy3 preview low	Tencent	2.8	5.5	$0.015	0/1	17.8s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.015 زمن الاستجابة (المتوسط) 17.8s
#77	Grok 4.3 medium	X AI	10.0	7.1	$0.779	1/1	17.7s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.779 زمن الاستجابة (المتوسط) 17.7s
#190	Hunter Alpha medium	OpenRouter	10.0	4.7	$0.000	1/1	17.3s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 17.3s
#20	Claude Fable 5 medium	Anthropic	10.0	8.6	$3.478	1/1	17.0s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $3.478 زمن الاستجابة (المتوسط) 17.0s
#105	Qwen3.6 27B medium	Qwen	10.0	6.5	$0.779	1/1	16.9s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.779 زمن الاستجابة (المتوسط) 16.9s
#88	MiMo-V2.5-Pro medium	Xiaomi	10.0	6.9	$0.187	1/1	16.9s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.187 زمن الاستجابة (المتوسط) 16.9s
#183	Nemotron 3 Super none	NVIDIA	4.7	4.9	$0.008	0/1	16.0s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 16.0s

ترتيب استدعاء الأدوات

تصفية النماذج

أفضل النماذج حسب درجة استدعاء الأدوات

درجة استدعاء الأدوات مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)