ترتيب إخفاقات لم يتبع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي تواجه لم يتبع التعليمات أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار. الترتيب حسب: عدد الإخفاقات ↑.

النماذج المعروضة

إجمالي الإخفاقات

246

النموذج الأكثر تأثرًا

Gemini 3.5 Flash 1

الفئات

ضمن الفئة حل الألغاز90 ضمن الفئة الذكاء العام78 ضمن الفئة حيل مضادة للذكاء الاصطناعي33 ضمن الفئة اتباع التعليمات19 ضمن الفئة البرمجة16 ضمن الفئة استدعاء الأدوات8 ضمن الفئة خاص بالمجال1 ضمن الفئة مجمّع1

141/141

الترتيب	النموذج	الشركة	عدد لم يتبع التعليمات	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	1	5.6	$0.048	8/22	8.42s
إجمالي الاختبارات 22 الاختبارات الخاطئة 14 إجمالي التكلفة $0.048 زمن الاستجابة (المتوسط) 8.42s
#156	DeepSeek V4 Flash none	DeepSeek	1	5.6	$0.042	5/22	36.8s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.042 زمن الاستجابة (المتوسط) 36.8s
#163	Mimo V2 Omni none	Xiaomi	1	5.5	$0.021	8/21	2.44s
إجمالي الاختبارات 21 الاختبارات الخاطئة 13 إجمالي التكلفة $0.021 زمن الاستجابة (المتوسط) 2.44s
#166	Laguna XS 2.1 none	Poolside	1	5.3	$0.008	5/22	1.55s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 1.55s
#169	Gemini 3.1 Flash Lite Preview high	Google	1	5.3	$2.310	13/16	68.1s
إجمالي الاختبارات 16 الاختبارات الخاطئة 3 إجمالي التكلفة $2.310 زمن الاستجابة (المتوسط) 68.1s
#170	Inkling none	Thinkingmachines	1	5.2	$0.147	6/22	3.50s
إجمالي الاختبارات 22 الاختبارات الخاطئة 16 إجمالي التكلفة $0.147 زمن الاستجابة (المتوسط) 3.50s
#171	Mistral Small 4 none	Mistral	1	5.1	$0.022	5/22	1.20s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.022 زمن الاستجابة (المتوسط) 1.20s
#172	Qwen3 Coder Next none	Qwen	1	5.1	$0.025	5/22	9.12s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 9.12s
#174	MiMo-V2.5 none	Xiaomi	1	5.1	$0.025	5/22	4.62s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 4.62s
#179	DeepSeek V3.2 none	DeepSeek	1	5.0	$0.054	6/22	18.3s
إجمالي الاختبارات 22 الاختبارات الخاطئة 16 إجمالي التكلفة $0.054 زمن الاستجابة (المتوسط) 18.3s
#180	GPT-4o-mini none	OpenAI	1	5.0	$0.010	5/22	1.99s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.010 زمن الاستجابة (المتوسط) 1.99s
#182	GLM 4.7 Flash none	Z.ai	1	4.9	$0.016	6/22	9.15s
إجمالي الاختبارات 22 الاختبارات الخاطئة 16 إجمالي التكلفة $0.016 زمن الاستجابة (المتوسط) 9.15s
#192	Laguna M.1 medium	Poolside	1	4.7	$0.033	9/19	14.7s
إجمالي الاختبارات 19 الاختبارات الخاطئة 10 إجمالي التكلفة $0.033 زمن الاستجابة (المتوسط) 14.7s
#195	Mercury 2 none	Inception	1	4.6	$0.030	4/22	829ms
إجمالي الاختبارات 22 الاختبارات الخاطئة 18 إجمالي التكلفة $0.030 زمن الاستجابة (المتوسط) 829ms
#197	Grok 4.20 Beta none	X AI	1	4.4	$0.087	6/18	1.19s
إجمالي الاختبارات 18 الاختبارات الخاطئة 12 إجمالي التكلفة $0.087 زمن الاستجابة (المتوسط) 1.19s

إخفاقات لم يتبع التعليمات

تصفية النماذج

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)