ترتيب النماذج لفئة استدعاء الأدوات

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في استدعاء الأدوات، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: زمن الاستجابة (المتوسط) ↓.

النماذج المعروضة

متوسط درجة استدعاء الأدوات

8.8

أفضل نموذج

Ring-2.6-1T 10.0

أسباب الفشل

مع سبب الفشل خطأ API17 مع سبب الفشل استدعاء أداة غير صالح9 مع سبب الفشل لم يتبع التعليمات8 مع سبب الفشل إجابة خاطئة3 مع سبب الفشل لا توجد إجابة2

216/216

الترتيب	النموذج	الشركة	درجة استدعاء الأدوات	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#24	GPT-5.2 medium	OpenAI	4.7	8.4	$0.951	0/1	10.3s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.951 زمن الاستجابة (المتوسط) 10.3s
#102	LongCat 2.0 high	Meituan	10.0	6.6	$0.469	1/1	10.0s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.469 زمن الاستجابة (المتوسط) 10.0s
#30	Muse Spark 1.1 high	Meta	9.6	8.1	$1.694	1/1	9.88s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $1.694 زمن الاستجابة (المتوسط) 9.88s
#53	GLM 5 Turbo medium	Z.ai	10.0	7.6	$0.323	1/1	9.84s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.323 زمن الاستجابة (المتوسط) 9.84s
#2	Gemini 3.6 Flash high	Google	10.0	9.7	$1.785	1/1	9.76s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $1.785 زمن الاستجابة (المتوسط) 9.76s
#47	Claude Opus 4.6 medium	Anthropic	10.0	7.7	$3.059	1/1	9.73s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $3.059 زمن الاستجابة (المتوسط) 9.73s
#60	GPT-5.4 Mini medium	OpenAI	4.7	7.5	$0.756	0/1	9.62s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.756 زمن الاستجابة (المتوسط) 9.62s
#110	Gemini 3.1 Flash Lite Preview low	Google	10.0	6.5	$0.646	1/1	9.54s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.646 زمن الاستجابة (المتوسط) 9.54s
#35	GLM 5.2 high	Z.ai	10.0	8.0	$0.817	1/1	9.25s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.817 زمن الاستجابة (المتوسط) 9.25s
#100	Gemma 4 26B A4B medium	Google	10.0	6.6	$0.089	1/1	9.01s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.089 زمن الاستجابة (المتوسط) 9.01s
#17	Claude Opus 4.8 medium	Anthropic	10.0	8.8	$1.931	1/1	8.96s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $1.931 زمن الاستجابة (المتوسط) 8.96s
#72	Kimi K2.6 medium	Moonshot AI	10.0	7.2	$1.036	1/1	8.92s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $1.036 زمن الاستجابة (المتوسط) 8.92s
#1	Gemini 3.6 Flash medium	Google	10.0	9.9	$0.831	1/1	8.55s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.831 زمن الاستجابة (المتوسط) 8.55s
#58	GPT-5.3 Chat none	OpenAI	10.0	7.5	$0.571	1/1	8.36s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.571 زمن الاستجابة (المتوسط) 8.36s
#152	Owl Alpha medium	Openrouter	10.0	5.6	$0.000	1/1	8.26s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 8.26s

ترتيب استدعاء الأدوات

تصفية النماذج

أفضل النماذج حسب درجة استدعاء الأدوات

درجة استدعاء الأدوات مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)