ترتيب إخفاقات لم يتبع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي تواجه لم يتبع التعليمات أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار. الترتيب حسب: زمن الاستجابة (المتوسط) ↑.

النماذج المعروضة

إجمالي الإخفاقات

245

النموذج الأكثر تأثرًا

Nemotron 3 Nano Omni 30b A3b Reasoning 2

الفئات

ضمن الفئة حل الألغاز90 ضمن الفئة الذكاء العام78 ضمن الفئة حيل مضادة للذكاء الاصطناعي33 ضمن الفئة اتباع التعليمات18 ضمن الفئة البرمجة16 ضمن الفئة استدعاء الأدوات8 ضمن الفئة خاص بالمجال1 ضمن الفئة مجمّع1

140/140

الترتيب	النموذج	الشركة	عدد لم يتبع التعليمات	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#120	Gemini 3.1 Flash Lite minimal	Google	3	6.1	$0.047	10/22	1.86s
إجمالي الاختبارات 22 الاختبارات الخاطئة 12 إجمالي التكلفة $0.047 زمن الاستجابة (المتوسط) 1.86s
#174	GPT-4o-mini none	OpenAI	1	5.0	$0.010	5/22	1.99s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.010 زمن الاستجابة (المتوسط) 1.99s
#139	GPT-5.4 none	OpenAI	1	5.8	$0.397	7/22	2.07s
إجمالي الاختبارات 22 الاختبارات الخاطئة 15 إجمالي التكلفة $0.397 زمن الاستجابة (المتوسط) 2.07s
#83	GPT-5.6 Sol none	OpenAI	1	6.9	$0.524	11/22	2.16s
إجمالي الاختبارات 22 الاختبارات الخاطئة 11 إجمالي التكلفة $0.524 زمن الاستجابة (المتوسط) 2.16s
#147	Mimo V2 PRO none	Xiaomi	2	5.6	$0.045	7/21	2.27s
إجمالي الاختبارات 21 الاختبارات الخاطئة 14 إجمالي التكلفة $0.045 زمن الاستجابة (المتوسط) 2.27s
#157	Mimo V2 Omni none	Xiaomi	1	5.5	$0.021	8/21	2.44s
إجمالي الاختبارات 21 الاختبارات الخاطئة 13 إجمالي التكلفة $0.021 زمن الاستجابة (المتوسط) 2.44s
#180	GPT-5.4 Nano none	OpenAI	2	4.8	$0.041	4/22	2.57s
إجمالي الاختبارات 22 الاختبارات الخاطئة 18 إجمالي التكلفة $0.041 زمن الاستجابة (المتوسط) 2.57s
#88	Gemini 3.5 Flash minimal	Google	1	6.8	$0.300	14/22	2.65s
إجمالي الاختبارات 22 الاختبارات الخاطئة 8 إجمالي التكلفة $0.300 زمن الاستجابة (المتوسط) 2.65s
#78	Mercury 2 medium	Inception	3	7.0	$0.093	10/22	2.72s
إجمالي الاختبارات 22 الاختبارات الخاطئة 12 إجمالي التكلفة $0.093 زمن الاستجابة (المتوسط) 2.72s
#200	MiMo-V2-Flash none	Xiaomi	2	4.0	$0.025	4/21	2.76s
إجمالي الاختبارات 21 الاختبارات الخاطئة 17 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 2.76s
#170	GLM 5 Turbo none	Z.ai	2	5.1	$0.047	6/21	2.82s
إجمالي الاختبارات 21 الاختبارات الخاطئة 15 إجمالي التكلفة $0.047 زمن الاستجابة (المتوسط) 2.82s
#183	Trinity Large Preview none	Arcee AI	3	4.8	$0.008	4/21	2.98s
إجمالي الاختبارات 21 الاختبارات الخاطئة 17 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 2.98s
#145	GLM 5V Turbo none	Z.ai	2	5.6	$0.052	8/21	2.99s
إجمالي الاختبارات 21 الاختبارات الخاطئة 13 إجمالي التكلفة $0.052 زمن الاستجابة (المتوسط) 2.99s
#164	Inkling none	Thinkingmachines	1	5.2	$0.147	6/22	3.50s
إجمالي الاختبارات 22 الاختبارات الخاطئة 16 إجمالي التكلفة $0.147 زمن الاستجابة (المتوسط) 3.50s
#124	Qwen3.6 Flash none	Qwen	1	6.1	$0.062	7/22	3.74s
إجمالي الاختبارات 22 الاختبارات الخاطئة 15 إجمالي التكلفة $0.062 زمن الاستجابة (المتوسط) 3.74s

إخفاقات لم يتبع التعليمات

تصفية النماذج

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)