ترتيب إخفاقات استدعاء أداة غير صالح

اكتشف أي نماذج الذكاء الاصطناعي تواجه استدعاء أداة غير صالح أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار. الترتيب حسب: اختبارات صحيحة ↑.

النماذج المعروضة

إجمالي الإخفاقات

100

النموذج الأكثر تأثرًا

Granite 4.1 8B 2

الفئات

ضمن الفئة مجمّع91 ضمن الفئة استدعاء الأدوات9

83/83

الترتيب	النموذج	الشركة	عدد استدعاء أداة غير صالح	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#201	Granite 4.1 8B none	IBM Granite	2	4.0	$0.007	2/22	1.45s
إجمالي الاختبارات 22 الاختبارات الخاطئة 20 إجمالي التكلفة $0.007 زمن الاستجابة (المتوسط) 1.45s
#162	Ling-2.6-1T none	Inclusionai	1	5.3	$0.016	4/22	8.58s
إجمالي الاختبارات 22 الاختبارات الخاطئة 18 إجمالي التكلفة $0.016 زمن الاستجابة (المتوسط) 8.58s
#169	Qwen3.5-9B none	Qwen	2	5.1	$0.021	4/22	19.2s
إجمالي الاختبارات 22 الاختبارات الخاطئة 18 إجمالي التكلفة $0.021 زمن الاستجابة (المتوسط) 19.2s
#171	North Mini Code none	Cohere	2	5.1	$0.000	4/22	29.9s
إجمالي الاختبارات 22 الاختبارات الخاطئة 18 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 29.9s
#194	GLM 4.7 Flash medium	Z.ai	2	4.3	$0.166	4/22	142.6s
إجمالي الاختبارات 22 الاختبارات الخاطئة 18 إجمالي التكلفة $0.166 زمن الاستجابة (المتوسط) 142.6s
#192	Laguna M.1 none	Poolside	1	4.4	$0.009	4/19	2.89s
إجمالي الاختبارات 19 الاختبارات الخاطئة 15 إجمالي التكلفة $0.009 زمن الاستجابة (المتوسط) 2.89s
#150	DeepSeek V4 Flash none	DeepSeek	2	5.6	$0.044	5/22	36.8s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.044 زمن الاستجابة (المتوسط) 36.8s
#160	Laguna XS 2.1 none	Poolside	1	5.3	$0.008	5/22	1.55s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 1.55s
#172	MiniMax M2.7 medium	Minimax	1	5.0	$0.163	5/22	41.3s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.163 زمن الاستجابة (المتوسط) 41.3s
#190	MiniMax M2.5 medium	Minimax	1	4.6	$0.340	5/22	68.3s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.340 زمن الاستجابة (المتوسط) 68.3s
#193	Elephant Alpha none	Openrouter	1	4.3	$0.000	5/21	1.22s
إجمالي الاختبارات 21 الاختبارات الخاطئة 16 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 1.22s
#205	Laguna Xs.2 none	Poolside	1	3.8	$0.004	5/19	806ms
إجمالي الاختبارات 19 الاختبارات الخاطئة 14 إجمالي التكلفة $0.004 زمن الاستجابة (المتوسط) 806ms
#142	Qwen3.5-122B-A10B none	Qwen	1	5.7	$0.247	6/22	12.9s
إجمالي الاختبارات 22 الاختبارات الخاطئة 16 إجمالي التكلفة $0.247 زمن الاستجابة (المتوسط) 12.9s
#159	GPT-5.6 Luna none	OpenAI	1	5.4	$0.142	6/22	1.50s
إجمالي الاختبارات 22 الاختبارات الخاطئة 16 إجمالي التكلفة $0.142 زمن الاستجابة (المتوسط) 1.50s
#164	Inkling none	Thinkingmachines	1	5.2	$0.147	6/22	3.50s
إجمالي الاختبارات 22 الاختبارات الخاطئة 16 إجمالي التكلفة $0.147 زمن الاستجابة (المتوسط) 3.50s

1 2 3 4 5 6

→

إخفاقات استدعاء أداة غير صالح

تصفية النماذج

أفضل النماذج حسب عدد استدعاء أداة غير صالح

عدد استدعاء أداة غير صالح مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)