ترتيب إخفاقات لم يتبع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي تواجه لم يتبع التعليمات أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار.

النماذج المعروضة

إجمالي الإخفاقات

242

النموذج الأكثر تأثرًا

الفئات

ضمن الفئة حل الألغاز88 ضمن الفئة الذكاء العام78 ضمن الفئة حيل مضادة للذكاء الاصطناعي32 ضمن الفئة اتباع التعليمات18 ضمن الفئة البرمجة16 ضمن الفئة استدعاء الأدوات8 ضمن الفئة خاص بالمجال1 ضمن الفئة مجمّع1

138/138

الترتيب	النموذج	الشركة	عدد لم يتبع التعليمات	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#168	MiniMax M2.7 medium	Minimax	5	5.0	$0.163	5/22	41.3s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.163 زمن الاستجابة (المتوسط) 41.3s
#150	MiMo-V2.5-Pro none	Xiaomi	4	5.5	$0.068	6/22	4.12s
إجمالي الاختبارات 22 الاختبارات الخاطئة 16 إجمالي التكلفة $0.068 زمن الاستجابة (المتوسط) 4.12s
#181	Grok 4.1 Fast medium	X AI	4	4.7	$0.069	9/19	23.8s
إجمالي الاختبارات 19 الاختبارات الخاطئة 10 إجمالي التكلفة $0.069 زمن الاستجابة (المتوسط) 23.8s
#195	Hy3 preview none	Tencent	4	4.0	$0.003	4/21	12.9s
إجمالي الاختبارات 21 الاختبارات الخاطئة 17 إجمالي التكلفة $0.003 زمن الاستجابة (المتوسط) 12.9s
#197	Granite 4.1 8B none	IBM Granite	4	4.0	$0.007	2/22	1.45s
إجمالي الاختبارات 22 الاختبارات الخاطئة 20 إجمالي التكلفة $0.007 زمن الاستجابة (المتوسط) 1.45s
#21	GPT-5.2 medium	OpenAI	3	8.4	$0.951	14/22	22.6s
إجمالي الاختبارات 22 الاختبارات الخاطئة 8 إجمالي التكلفة $0.951 زمن الاستجابة (المتوسط) 22.6s
#26	GPT-5 Mini medium	OpenAI	3	8.1	$0.237	12/22	27.6s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.237 زمن الاستجابة (المتوسط) 27.6s
#56	GPT-5.4 Mini medium	OpenAI	3	7.5	$0.756	12/22	25.9s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.756 زمن الاستجابة (المتوسط) 25.9s
#77	Mercury 2 medium	Inception	3	7.0	$0.093	10/22	2.72s
إجمالي الاختبارات 22 الاختبارات الخاطئة 12 إجمالي التكلفة $0.093 زمن الاستجابة (المتوسط) 2.72s
#116	Gemini 3.1 Flash Lite minimal	Google	3	6.1	$0.047	10/22	1.86s
إجمالي الاختبارات 22 الاختبارات الخاطئة 12 إجمالي التكلفة $0.047 زمن الاستجابة (المتوسط) 1.86s
#117	gpt-oss-120b medium	OpenAI	3	6.1	$0.019	9/22	21.9s
إجمالي الاختبارات 22 الاختبارات الخاطئة 13 إجمالي التكلفة $0.019 زمن الاستجابة (المتوسط) 21.9s
#126	Step 3.5 Flash medium	Stepfun	3	6.0	$0.108	11/21	174.2s
إجمالي الاختبارات 21 الاختبارات الخاطئة 10 إجمالي التكلفة $0.108 زمن الاستجابة (المتوسط) 174.2s
#132	GPT-5.4 Mini none	OpenAI	3	5.9	$0.095	6/22	1.53s
إجمالي الاختبارات 22 الاختبارات الخاطئة 16 إجمالي التكلفة $0.095 زمن الاستجابة (المتوسط) 1.53s
#134	Kimi K2.6 none	Moonshot AI	3	5.8	$0.233	7/22	19.6s
إجمالي الاختبارات 22 الاختبارات الخاطئة 15 إجمالي التكلفة $0.233 زمن الاستجابة (المتوسط) 19.6s
#136	Nemotron 3 Super medium	NVIDIA	3	5.7	$0.066	8/22	52.0s
إجمالي الاختبارات 22 الاختبارات الخاطئة 14 إجمالي التكلفة $0.066 زمن الاستجابة (المتوسط) 52.0s

إخفاقات لم يتبع التعليمات

تصفية النماذج

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)