ترتيب استدعاء الأدوات x خطأ API

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور خطأ API في استدعاء الأدوات، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: اختبارات صحيحة ↓.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

Kimi K3 1

أسباب الفشل

خطأ API17 استدعاء أداة غير صالح9 لم يتبع التعليمات8 إجابة خاطئة3 لا توجد إجابة2

الفئات

البرمجة45 مجمّع26 استدعاء الأدوات17 تحليل البيانات واستخراجها14 حيل مضادة للذكاء الاصطناعي14 معلومات عامة13 الذكاء العام12 حل الألغاز12 خاص بالمجال7 اتباع التعليمات1

17/17

الترتيب	النموذج	الشركة	عدد خطأ API	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#33	Kimi K3 max	Moonshot AI	1	3.0	$3.112	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $3.112 زمن الاستجابة (المتوسط) 0ms
#52	Kimi K2.7 Code medium	Moonshot AI	1	3.0	$0.751	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.751 زمن الاستجابة (المتوسط) 0ms
#74	GLM 5.1 medium	Z.ai	1	3.0	$0.535	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.535 زمن الاستجابة (المتوسط) 0ms
#79	Gemini 3.5 Flash none	Google	1	3.0	$1.079	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $1.079 زمن الاستجابة (المتوسط) 0ms
#90	Qwen3.6 35B A3B medium	Qwen	1	3.0	$0.746	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.746 زمن الاستجابة (المتوسط) 0ms
#110	Gemma 4 31B medium	Google	1	3.0	$0.163	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.163 زمن الاستجابة (المتوسط) 0ms
#115	Gemma 4 31B none	Google	1	3.0	$0.035	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.035 زمن الاستجابة (المتوسط) 0ms
#153	Hy3 preview low	Tencent	1	2.8	$0.015	0/1	17.8s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.015 زمن الاستجابة (المتوسط) 17.8s
#161	Qwen3.6 35B A3B none	Qwen	1	3.0	$0.061	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.061 زمن الاستجابة (المتوسط) 0ms
#179	Ring-2.6-1T none	Inclusionai	1	3.0	$0.026	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.026 زمن الاستجابة (المتوسط) 0ms
#181	Grok 4.20 Multi Agent Beta medium	X AI	1	3.0	$5.599	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $5.599 زمن الاستجابة (المتوسط) 0ms
#202	Grok Build 0.1 none	X AI	1	3.0	$0.547	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.547 زمن الاستجابة (المتوسط) 0ms
#206	gpt-oss-120b none	OpenAI	1	3.0	$0.010	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.010 زمن الاستجابة (المتوسط) 0ms
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	3.0	$0.000	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 0ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1	3.0	$0.000	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 0ms

تصفية النماذج

أفضل النماذج حسب عدد خطأ API

عدد خطأ API مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

استدعاء الأدوات: خطأ API

تصفية النماذج

أفضل النماذج حسب عدد خطأ API

عدد خطأ API مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية