ترتيب النماذج لفئة استدعاء الأدوات

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في استدعاء الأدوات، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: اختبارات صحيحة ↑.

النماذج المعروضة

متوسط درجة استدعاء الأدوات

8.8

أفضل نموذج

GPT-5.2 4.7

أسباب الفشل

مع سبب الفشل خطأ API17 مع سبب الفشل استدعاء أداة غير صالح9 مع سبب الفشل لم يتبع التعليمات8 مع سبب الفشل إجابة خاطئة3 مع سبب الفشل لا توجد إجابة2

216/216

الترتيب	النموذج	الشركة	درجة استدعاء الأدوات	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#137	Grok 4.20 Beta medium	X AI	3.0	6.0	$0.750	0/1	12.4s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.750 زمن الاستجابة (المتوسط) 12.4s
#142	GPT-5.4 Mini none	OpenAI	3.0	5.9	$0.095	0/1	2.32s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.095 زمن الاستجابة (المتوسط) 2.32s
#159	Hy3 preview low	Tencent	2.8	5.5	$0.015	0/1	17.8s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.015 زمن الاستجابة (المتوسط) 17.8s
#167	Qwen3.6 35B A3B none	Qwen	3.0	5.3	$0.061	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.061 زمن الاستجابة (المتوسط) 0ms
#168	Ling-2.6-1T none	Inclusionai	3.0	5.3	$0.016	0/1	25.7s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.016 زمن الاستجابة (المتوسط) 25.7s
#170	Inkling none	Thinkingmachines	3.0	5.2	$0.147	0/1	2.50s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.147 زمن الاستجابة (المتوسط) 2.50s
#178	MiniMax M2.7 medium	Minimax	4.7	5.0	$0.163	0/1	12.0s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.163 زمن الاستجابة (المتوسط) 12.0s
#182	GLM 4.7 Flash none	Z.ai	2.8	4.9	$0.016	0/1	7.05s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.016 زمن الاستجابة (المتوسط) 7.05s
#183	Nemotron 3 Super none	NVIDIA	4.7	4.9	$0.008	0/1	16.0s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 16.0s
#184	Ling-2.6-flash none	Inclusionai	3.0	4.9	$0.002	0/1	18.8s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.002 زمن الاستجابة (المتوسط) 18.8s
#185	Ring-2.6-1T none	Inclusionai	3.0	4.8	$0.026	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.026 زمن الاستجابة (المتوسط) 0ms
#187	Grok 4.20 Multi Agent Beta medium	X AI	3.0	4.8	$5.599	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $5.599 زمن الاستجابة (المتوسط) 0ms
#191	Grok 4.1 Fast medium	X AI	2.8	4.7	$0.069	0/1	27.7s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.069 زمن الاستجابة (المتوسط) 27.7s
#199	Elephant Alpha none	Openrouter	3.0	4.3	$0.000	0/1	2.79s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 2.79s
#201	Elephant Alpha medium	Openrouter	3.0	4.3	$0.000	0/1	2.83s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 2.83s

ترتيب استدعاء الأدوات

تصفية النماذج

أفضل النماذج حسب درجة استدعاء الأدوات

درجة استدعاء الأدوات مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)