ترتيب إخفاقات لم يتبع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي تواجه لم يتبع التعليمات أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار. الترتيب حسب: اختبارات صحيحة ↑.

النماذج المعروضة

إجمالي الإخفاقات

246

النموذج الأكثر تأثرًا

Granite 4.1 8B 4

الفئات

ضمن الفئة حل الألغاز90 ضمن الفئة الذكاء العام78 ضمن الفئة حيل مضادة للذكاء الاصطناعي33 ضمن الفئة اتباع التعليمات19 ضمن الفئة البرمجة16 ضمن الفئة استدعاء الأدوات8 ضمن الفئة خاص بالمجال1 ضمن الفئة مجمّع1

141/141

الترتيب	النموذج	الشركة	عدد لم يتبع التعليمات	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#121	Gemma 4 31B none	Google	1	6.2	$0.021	10/22	5.34s
إجمالي الاختبارات 22 الاختبارات الخاطئة 12 إجمالي التكلفة $0.021 زمن الاستجابة (المتوسط) 5.34s
#123	GPT-5.6 Luna low	OpenAI	1	6.2	$0.249	10/22	5.04s
إجمالي الاختبارات 22 الاختبارات الخاطئة 12 إجمالي التكلفة $0.249 زمن الاستجابة (المتوسط) 5.04s
#126	Gemini 3.1 Flash Lite minimal	Google	3	6.1	$0.047	10/22	1.86s
إجمالي الاختبارات 22 الاختبارات الخاطئة 12 إجمالي التكلفة $0.047 زمن الاستجابة (المتوسط) 1.86s
#129	Inkling low	Thinkingmachines	2	6.1	$0.187	10/22	5.15s
إجمالي الاختبارات 22 الاختبارات الخاطئة 12 إجمالي التكلفة $0.187 زمن الاستجابة (المتوسط) 5.15s
#191	Grok 4.1 Fast medium	X AI	4	4.7	$0.069	9/19	23.8s
إجمالي الاختبارات 19 الاختبارات الخاطئة 10 إجمالي التكلفة $0.069 زمن الاستجابة (المتوسط) 23.8s
#192	Laguna M.1 medium	Poolside	1	4.7	$0.033	9/19	14.7s
إجمالي الاختبارات 19 الاختبارات الخاطئة 10 إجمالي التكلفة $0.033 زمن الاستجابة (المتوسط) 14.7s
#140	Mimo V2 Omni medium	Xiaomi	2	5.9	$0.683	10/21	41.2s
إجمالي الاختبارات 21 الاختبارات الخاطئة 11 إجمالي التكلفة $0.683 زمن الاستجابة (المتوسط) 41.2s
#75	Qwen3.7 Plus none	Qwen	1	7.2	$0.106	11/22	12.1s
إجمالي الاختبارات 22 الاختبارات الخاطئة 11 إجمالي التكلفة $0.106 زمن الاستجابة (المتوسط) 12.1s
#80	DeepSeek V3.2 medium	DeepSeek	1	7.0	$0.078	11/22	68.6s
إجمالي الاختبارات 22 الاختبارات الخاطئة 11 إجمالي التكلفة $0.078 زمن الاستجابة (المتوسط) 68.6s
#84	Seed-2.0-Mini medium	Bytedance Seed	1	7.0	$0.101	11/22	92.5s
إجمالي الاختبارات 22 الاختبارات الخاطئة 11 إجمالي التكلفة $0.101 زمن الاستجابة (المتوسط) 92.5s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	1	6.9	$0.467	11/22	24.0s
إجمالي الاختبارات 22 الاختبارات الخاطئة 11 إجمالي التكلفة $0.467 زمن الاستجابة (المتوسط) 24.0s
#87	GPT-5.6 Sol none	OpenAI	1	6.9	$0.524	11/22	2.16s
إجمالي الاختبارات 22 الاختبارات الخاطئة 11 إجمالي التكلفة $0.524 زمن الاستجابة (المتوسط) 2.16s
#114	Ring-2.6-1T medium	Inclusionai	2	6.3	$0.103	11/22	68.7s
إجمالي الاختبارات 22 الاختبارات الخاطئة 11 إجمالي التكلفة $0.103 زمن الاستجابة (المتوسط) 68.7s
#215	Step 3.5 Flash none	Stepfun	1	2.3	$0.020	6/12	39.0s
إجمالي الاختبارات 12 الاختبارات الخاطئة 6 إجمالي التكلفة $0.020 زمن الاستجابة (المتوسط) 39.0s
#98	GLM 5V Turbo medium	Z.ai	1	6.7	$0.457	11/21	23.1s
إجمالي الاختبارات 21 الاختبارات الخاطئة 10 إجمالي التكلفة $0.457 زمن الاستجابة (المتوسط) 23.1s

إخفاقات لم يتبع التعليمات

تصفية النماذج

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)