ترتيب النماذج لفئة استدعاء الأدوات

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في استدعاء الأدوات، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: اختبارات صحيحة ↑.

النماذج المعروضة

متوسط درجة استدعاء الأدوات

8.8

أفضل نموذج

GPT-5.2 4.7

أسباب الفشل

مع سبب الفشل خطأ API17 مع سبب الفشل استدعاء أداة غير صالح9 مع سبب الفشل لم يتبع التعليمات8 مع سبب الفشل إجابة خاطئة3 مع سبب الفشل لا توجد إجابة2

216/216

الترتيب	النموذج	الشركة	درجة استدعاء الأدوات	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#204	Laguna Xs.2 medium	Poolside	4.7	4.1	$0.015	0/1	3.39s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.015 زمن الاستجابة (المتوسط) 3.39s
#208	Grok Build 0.1 none	X AI	3.0	4.0	$0.547	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.547 زمن الاستجابة (المتوسط) 0ms
#209	Grok 4.1 Fast none	X AI	2.8	3.8	$0.008	0/1	5.51s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 5.51s
#211	Laguna Xs.2 none	Poolside	3.0	3.8	$0.004	0/1	1.93s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.004 زمن الاستجابة (المتوسط) 1.93s
#212	gpt-oss-120b none	OpenAI	3.0	3.7	$0.010	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.010 زمن الاستجابة (المتوسط) 0ms
#213	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	3.0	3.4	$0.000	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 0ms
#214	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3.0	3.2	$0.000	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 0ms
#215	Step 3.5 Flash none	Stepfun	3.0	2.3	$0.020	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.020 زمن الاستجابة (المتوسط) 0ms
#216	LFM2-24B-A2B none	Liquid	3.0	2.2	$0.001	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.001 زمن الاستجابة (المتوسط) 0ms
#1	Gemini 3.6 Flash medium	Google	10.0	9.9	$0.831	1/1	8.55s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.831 زمن الاستجابة (المتوسط) 8.55s
#2	Gemini 3.6 Flash high	Google	10.0	9.7	$1.785	1/1	9.76s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $1.785 زمن الاستجابة (المتوسط) 9.76s
#3	Gemini 3 Flash Preview medium	Google	10.0	9.6	$0.742	1/1	12.6s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.742 زمن الاستجابة (المتوسط) 12.6s
#4	Gemini 3.5 Flash high	Google	9.8	9.5	$1.976	1/1	4.96s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $1.976 زمن الاستجابة (المتوسط) 4.96s
#5	GPT-5.6 Sol low	OpenAI	10.0	9.5	$0.971	1/1	7.56s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.971 زمن الاستجابة (المتوسط) 7.56s
#6	Gemini 3.6 Flash low	Google	10.0	9.4	$0.517	1/1	4.78s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.517 زمن الاستجابة (المتوسط) 4.78s

ترتيب استدعاء الأدوات

تصفية النماذج

أفضل النماذج حسب درجة استدعاء الأدوات

درجة استدعاء الأدوات مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)