ترتيب النماذج لفئة استدعاء الأدوات

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في استدعاء الأدوات، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: زمن الاستجابة (المتوسط) ↓.

النماذج المعروضة

متوسط درجة استدعاء الأدوات

8.8

أفضل نموذج

Ring-2.6-1T 10.0

أسباب الفشل

مع سبب الفشل خطأ API17 مع سبب الفشل استدعاء أداة غير صالح9 مع سبب الفشل لم يتبع التعليمات8 مع سبب الفشل إجابة خاطئة3 مع سبب الفشل لا توجد إجابة2

216/216

الترتيب	النموذج	الشركة	درجة استدعاء الأدوات	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#137	Grok 4.20 Beta medium	X AI	3.0	6.0	$0.750	0/1	12.4s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.750 زمن الاستجابة (المتوسط) 12.4s
#39	Seed-2.0-Lite medium	Bytedance Seed	10.0	7.9	$0.234	1/1	12.4s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.234 زمن الاستجابة (المتوسط) 12.4s
#178	MiniMax M2.7 medium	Minimax	4.7	5.0	$0.163	0/1	12.0s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.163 زمن الاستجابة (المتوسط) 12.0s
#139	Gemini 3 PRO Preview medium	Google	10.0	6.0	$0.385	1/1	12.0s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.385 زمن الاستجابة (المتوسط) 12.0s
#51	MiniMax M3 medium	Minimax	10.0	7.6	$0.286	1/1	11.9s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.286 زمن الاستجابة (المتوسط) 11.9s
#136	Step 3.5 Flash medium	Stepfun	10.0	6.0	$0.108	1/1	11.9s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.108 زمن الاستجابة (المتوسط) 11.9s
#179	DeepSeek V3.2 none	DeepSeek	10.0	5.0	$0.054	1/1	11.8s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.054 زمن الاستجابة (المتوسط) 11.8s
#194	Cobuddy medium	Baidu	10.0	4.7	$0.000	1/1	11.2s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 11.2s
#147	GLM 5 none	Z.ai	10.0	5.7	$0.041	1/1	11.1s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.041 زمن الاستجابة (المتوسط) 11.1s
#96	LongCat 2.0 low	Meituan	10.0	6.7	$0.391	1/1	10.8s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.391 زمن الاستجابة (المتوسط) 10.8s
#26	Claude Sonnet 5 medium	Anthropic	10.0	8.3	$0.922	1/1	10.7s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.922 زمن الاستجابة (المتوسط) 10.7s
#157	GLM 5.1 none	Z.ai	10.0	5.5	$0.164	1/1	10.7s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.164 زمن الاستجابة (المتوسط) 10.7s
#64	LongCat 2.0 medium	Meituan	10.0	7.4	$0.478	1/1	10.7s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.478 زمن الاستجابة (المتوسط) 10.7s
#13	GPT-5.5 medium	OpenAI	10.0	9.0	$4.137	1/1	10.6s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $4.137 زمن الاستجابة (المتوسط) 10.6s
#120	Qwen3.5-Flash medium	Qwen	10.0	6.2	$0.139	1/1	10.3s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.139 زمن الاستجابة (المتوسط) 10.3s

ترتيب استدعاء الأدوات

تصفية النماذج

أفضل النماذج حسب درجة استدعاء الأدوات

درجة استدعاء الأدوات مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)