ترتيب استدعاء الأدوات x لم يتبع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور لم يتبع التعليمات في استدعاء الأدوات، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

GPT-5.4 Mini 1

أسباب الفشل

خطأ API17 استدعاء أداة غير صالح9 لم يتبع التعليمات8 إجابة خاطئة3 لا توجد إجابة2

الفئات

حل الألغاز90 الذكاء العام78 حيل مضادة للذكاء الاصطناعي33 اتباع التعليمات18 البرمجة16 استدعاء الأدوات8 خاص بالمجال1 مجمّع1

8/8

الترتيب	النموذج	الشركة	عدد لم يتبع التعليمات	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#56	GPT-5.4 Mini medium	OpenAI	1	4.7	$0.756	0/1	9.62s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.756 زمن الاستجابة (المتوسط) 9.62s
#75	Grok 4.20 medium	X AI	1	3.0	$0.777	0/1	13.7s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.777 زمن الاستجابة (المتوسط) 13.7s
#123	Inkling low	Thinkingmachines	1	3.0	$0.187	0/1	2.57s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.187 زمن الاستجابة (المتوسط) 2.57s
#131	Grok 4.20 Beta medium	X AI	1	3.0	$0.750	0/1	12.4s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.750 زمن الاستجابة (المتوسط) 12.4s
#136	GPT-5.4 Mini none	OpenAI	1	3.0	$0.095	0/1	2.32s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.095 زمن الاستجابة (المتوسط) 2.32s
#164	Inkling none	Thinkingmachines	1	3.0	$0.147	0/1	2.50s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.147 زمن الاستجابة (المتوسط) 2.50s
#172	MiniMax M2.7 medium	Minimax	1	4.7	$0.163	0/1	12.0s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.163 زمن الاستجابة (المتوسط) 12.0s
#177	Nemotron 3 Super none	NVIDIA	1	4.7	$0.008	0/1	16.0s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 16.0s

تصفية النماذج

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

استدعاء الأدوات: لم يتبع التعليمات

تصفية النماذج

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية