ترتيب النماذج لفئة استدعاء الأدوات

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في استدعاء الأدوات، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: زمن الاستجابة (المتوسط) ↓.

النماذج المعروضة

متوسط درجة استدعاء الأدوات

8.8

أفضل نموذج

Ring-2.6-1T 10.0

أسباب الفشل

مع سبب الفشل خطأ API17 مع سبب الفشل استدعاء أداة غير صالح9 مع سبب الفشل لم يتبع التعليمات8 مع سبب الفشل إجابة خاطئة3 مع سبب الفشل لا توجد إجابة2

216/216

الترتيب	النموذج	الشركة	درجة استدعاء الأدوات	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#69	Gemini 3.1 Flash Lite medium	Google	10.0	7.3	$0.117	1/1	4.55s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.117 زمن الاستجابة (المتوسط) 4.55s
#36	Inkling medium	Thinkingmachines	3.0	8.0	$0.391	0/1	4.48s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.391 زمن الاستجابة (المتوسط) 4.48s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	10.0	5.4	$0.041	1/1	4.47s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.041 زمن الاستجابة (المتوسط) 4.47s
#144	Kimi K2.6 none	Moonshot AI	10.0	5.8	$0.184	1/1	4.46s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.184 زمن الاستجابة (المتوسط) 4.46s
#123	GPT-5.6 Luna low	OpenAI	10.0	6.2	$0.249	1/1	4.43s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.249 زمن الاستجابة (المتوسط) 4.43s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	10.0	6.1	$0.122	1/1	4.42s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.122 زمن الاستجابة (المتوسط) 4.42s
#153	Mimo V2 PRO none	Xiaomi	10.0	5.6	$0.045	1/1	4.39s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.045 زمن الاستجابة (المتوسط) 4.39s
#210	Qwen3.5-9B medium	Qwen	10.0	3.8	$0.036	1/1	4.31s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.036 زمن الاستجابة (المتوسط) 4.31s
#18	Claude Opus 4.7 medium	Anthropic	10.0	8.7	$1.477	1/1	4.17s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $1.477 زمن الاستجابة (المتوسط) 4.17s
#33	Step 3.7 Flash medium	Stepfun	10.0	8.0	$0.515	1/1	4.16s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.515 زمن الاستجابة (المتوسط) 4.16s
#67	Claude Sonnet 4.6 none	Anthropic	10.0	7.3	$0.661	1/1	4.11s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.661 زمن الاستجابة (المتوسط) 4.11s
#31	Gemini 3.5 Flash-Lite high	Google	10.0	8.1	$0.584	1/1	4.05s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.584 زمن الاستجابة (المتوسط) 4.05s
#89	Qwen3.6 Flash medium	Qwen	10.0	6.9	$0.738	1/1	4.00s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.738 زمن الاستجابة (المتوسط) 4.00s
#122	Seed-2.0-Lite none	Bytedance Seed	10.0	6.2	$0.066	1/1	3.94s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.066 زمن الاستجابة (المتوسط) 3.94s
#143	North Mini Code medium	Cohere	10.0	5.9	$0.000	1/1	3.93s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 3.93s

←

1 9 10 11 15

→

ترتيب استدعاء الأدوات

تصفية النماذج

أفضل النماذج حسب درجة استدعاء الأدوات

درجة استدعاء الأدوات مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)