ترتيب إخفاقات استدعاء أداة غير صالح

اكتشف أي نماذج الذكاء الاصطناعي تواجه استدعاء أداة غير صالح أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار.

النماذج المعروضة

إجمالي الإخفاقات

100

النموذج الأكثر تأثرًا

Ling-2.6-flash 3

الفئات

ضمن الفئة مجمّع91 ضمن الفئة استدعاء الأدوات9

83/83

الترتيب	النموذج	الشركة	عدد استدعاء أداة غير صالح	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#174	Ling-2.6-flash none	Inclusionai	3	4.9	$0.002	6/22	10.7s
إجمالي الاختبارات 22 الاختبارات الخاطئة 16 إجمالي التكلفة $0.002 زمن الاستجابة (المتوسط) 10.7s
#27	Muse Spark 1.1 high	Meta	2	8.1	$1.694	12/22	31.5s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $1.694 زمن الاستجابة (المتوسط) 31.5s
#28	Inkling high	Thinkingmachines	2	8.0	$1.006	15/22	64.2s
إجمالي الاختبارات 22 الاختبارات الخاطئة 7 إجمالي التكلفة $1.006 زمن الاستجابة (المتوسط) 64.2s
#87	Gemini 3.5 Flash minimal	Google	2	6.8	$0.300	14/22	2.65s
إجمالي الاختبارات 22 الاختبارات الخاطئة 8 إجمالي التكلفة $0.300 زمن الاستجابة (المتوسط) 2.65s
#91	GLM 5V Turbo medium	Z.ai	2	6.7	$0.457	11/21	23.1s
إجمالي الاختبارات 21 الاختبارات الخاطئة 10 إجمالي التكلفة $0.457 زمن الاستجابة (المتوسط) 23.1s
#96	Qwen3.6 27B medium	Qwen	2	6.5	$0.779	10/22	106.3s
إجمالي الاختبارات 22 الاختبارات الخاطئة 12 إجمالي التكلفة $0.779 زمن الاستجابة (المتوسط) 106.3s
#119	Inkling low	Thinkingmachines	2	6.1	$0.187	10/22	5.15s
إجمالي الاختبارات 22 الاختبارات الخاطئة 12 إجمالي التكلفة $0.187 زمن الاستجابة (المتوسط) 5.15s
#120	Qwen3.6 Flash none	Qwen	2	6.1	$0.062	7/22	3.74s
إجمالي الاختبارات 22 الاختبارات الخاطئة 15 إجمالي التكلفة $0.062 زمن الاستجابة (المتوسط) 3.74s
#146	DeepSeek V4 Flash none	DeepSeek	2	5.6	$0.044	5/22	36.8s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.044 زمن الاستجابة (المتوسط) 36.8s
#148	Qwen3.6 27B none	Qwen	2	5.5	$0.087	7/22	10.7s
إجمالي الاختبارات 22 الاختبارات الخاطئة 15 إجمالي التكلفة $0.087 زمن الاستجابة (المتوسط) 10.7s
#165	Qwen3.5-9B none	Qwen	2	5.1	$0.021	4/22	19.2s
إجمالي الاختبارات 22 الاختبارات الخاطئة 18 إجمالي التكلفة $0.021 زمن الاستجابة (المتوسط) 19.2s
#167	North Mini Code none	Cohere	2	5.1	$0.000	4/22	29.9s
إجمالي الاختبارات 22 الاختبارات الخاطئة 18 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 29.9s
#169	DeepSeek V3.2 none	DeepSeek	2	5.0	$0.054	6/22	18.3s
إجمالي الاختبارات 22 الاختبارات الخاطئة 16 إجمالي التكلفة $0.054 زمن الاستجابة (المتوسط) 18.3s
#172	GLM 4.7 Flash none	Z.ai	2	4.9	$0.016	6/22	9.15s
إجمالي الاختبارات 22 الاختبارات الخاطئة 16 إجمالي التكلفة $0.016 زمن الاستجابة (المتوسط) 9.15s
#190	GLM 4.7 Flash medium	Z.ai	2	4.3	$0.166	4/22	142.6s
إجمالي الاختبارات 22 الاختبارات الخاطئة 18 إجمالي التكلفة $0.166 زمن الاستجابة (المتوسط) 142.6s

1 2 3 4 5 6

→

إخفاقات استدعاء أداة غير صالح

تصفية النماذج

أفضل النماذج حسب عدد استدعاء أداة غير صالح

عدد استدعاء أداة غير صالح مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)