ترتيب إخفاقات لم يتبع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي تواجه لم يتبع التعليمات أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار. الترتيب حسب: اختبارات صحيحة ↓.

النماذج المعروضة

إجمالي الإخفاقات

250

النموذج الأكثر تأثرًا

Gemini 3.5 Flash 1

الفئات

ضمن الفئة حل الألغاز90 ضمن الفئة الذكاء العام78 ضمن الفئة حيل مضادة للذكاء الاصطناعي33 ضمن الفئة اتباع التعليمات23 ضمن الفئة البرمجة16 ضمن الفئة استدعاء الأدوات8 ضمن الفئة خاص بالمجال1 ضمن الفئة مجمّع1

145/145

الترتيب	النموذج	الشركة	عدد لم يتبع التعليمات	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#89	Qwen3.6 Flash medium	Qwen	1	6.9	$0.738	12/22	44.7s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.738 زمن الاستجابة (المتوسط) 44.7s
#101	GLM 5.2 none	Z.ai	1	6.6	$0.124	12/22	9.34s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.124 زمن الاستجابة (المتوسط) 9.34s
#107	MiMo-V2.5 medium	Xiaomi	1	6.5	$0.082	12/22	32.2s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.082 زمن الاستجابة (المتوسط) 32.2s
#112	Gemini 3.1 Flash Lite Preview none	Google	2	6.4	$0.052	12/22	1.58s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.052 زمن الاستجابة (المتوسط) 1.58s
#120	Qwen3.5-Flash medium	Qwen	1	6.2	$0.139	12/22	84.8s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.139 زمن الاستجابة (المتوسط) 84.8s
#98	GLM 5V Turbo medium	Z.ai	1	6.7	$0.457	11/21	23.1s
إجمالي الاختبارات 21 الاختبارات الخاطئة 10 إجمالي التكلفة $0.457 زمن الاستجابة (المتوسط) 23.1s
#136	Step 3.5 Flash medium	Stepfun	3	6.0	$0.108	11/21	174.2s
إجمالي الاختبارات 21 الاختبارات الخاطئة 10 إجمالي التكلفة $0.108 زمن الاستجابة (المتوسط) 174.2s
#75	Qwen3.7 Plus none	Qwen	1	7.2	$0.106	11/22	12.1s
إجمالي الاختبارات 22 الاختبارات الخاطئة 11 إجمالي التكلفة $0.106 زمن الاستجابة (المتوسط) 12.1s
#80	DeepSeek V3.2 medium	DeepSeek	1	7.0	$0.078	11/22	68.6s
إجمالي الاختبارات 22 الاختبارات الخاطئة 11 إجمالي التكلفة $0.078 زمن الاستجابة (المتوسط) 68.6s
#84	Seed-2.0-Mini medium	Bytedance Seed	1	7.0	$0.101	11/22	92.5s
إجمالي الاختبارات 22 الاختبارات الخاطئة 11 إجمالي التكلفة $0.101 زمن الاستجابة (المتوسط) 92.5s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	1	6.9	$0.467	11/22	24.0s
إجمالي الاختبارات 22 الاختبارات الخاطئة 11 إجمالي التكلفة $0.467 زمن الاستجابة (المتوسط) 24.0s
#87	GPT-5.6 Sol none	OpenAI	1	6.9	$0.524	11/22	2.16s
إجمالي الاختبارات 22 الاختبارات الخاطئة 11 إجمالي التكلفة $0.524 زمن الاستجابة (المتوسط) 2.16s
#114	Ring-2.6-1T medium	Inclusionai	2	6.3	$0.103	11/22	68.7s
إجمالي الاختبارات 22 الاختبارات الخاطئة 11 إجمالي التكلفة $0.103 زمن الاستجابة (المتوسط) 68.7s
#219	Step 3.5 Flash none	Stepfun	1	2.3	$0.020	6/12	39.0s
إجمالي الاختبارات 12 الاختبارات الخاطئة 6 إجمالي التكلفة $0.020 زمن الاستجابة (المتوسط) 39.0s
#140	Mimo V2 Omni medium	Xiaomi	2	5.9	$0.683	10/21	41.2s
إجمالي الاختبارات 21 الاختبارات الخاطئة 11 إجمالي التكلفة $0.683 زمن الاستجابة (المتوسط) 41.2s

إخفاقات لم يتبع التعليمات

تصفية النماذج

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)