ترتيب إخفاقات لم يتبع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي تواجه لم يتبع التعليمات أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار. الترتيب حسب: النتيجة ↓.

النماذج المعروضة

إجمالي الإخفاقات

245

النموذج الأكثر تأثرًا

Gemini 3.5 Flash 1

الفئات

ضمن الفئة حل الألغاز90 ضمن الفئة الذكاء العام78 ضمن الفئة حيل مضادة للذكاء الاصطناعي33 ضمن الفئة اتباع التعليمات18 ضمن الفئة البرمجة16 ضمن الفئة استدعاء الأدوات8 ضمن الفئة خاص بالمجال1 ضمن الفئة مجمّع1

140/140

الترتيب	النموذج	الشركة	عدد لم يتبع التعليمات	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#65	Gemini 3.1 Flash Lite medium	Google	1	7.3	$0.117	13/22	4.27s
إجمالي الاختبارات 22 الاختبارات الخاطئة 9 إجمالي التكلفة $0.117 زمن الاستجابة (المتوسط) 4.27s
#66	Claude Opus 4.8 none	Anthropic	1	7.3	$1.166	13/22	4.91s
إجمالي الاختبارات 22 الاختبارات الخاطئة 9 إجمالي التكلفة $1.166 زمن الاستجابة (المتوسط) 4.91s
#68	Kimi K2.6 medium	Moonshot AI	2	7.2	$1.036	12/22	110.0s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $1.036 زمن الاستجابة (المتوسط) 110.0s
#71	Qwen3.7 Plus none	Qwen	1	7.2	$0.106	11/22	12.1s
إجمالي الاختبارات 22 الاختبارات الخاطئة 11 إجمالي التكلفة $0.106 زمن الاستجابة (المتوسط) 12.1s
#73	Grok 4.3 medium	X AI	2	7.1	$0.779	13/22	47.4s
إجمالي الاختبارات 22 الاختبارات الخاطئة 9 إجمالي التكلفة $0.779 زمن الاستجابة (المتوسط) 47.4s
#75	Grok 4.20 medium	X AI	2	7.1	$0.777	12/22	29.5s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.777 زمن الاستجابة (المتوسط) 29.5s
#76	DeepSeek V3.2 medium	DeepSeek	1	7.0	$0.078	11/22	68.6s
إجمالي الاختبارات 22 الاختبارات الخاطئة 11 إجمالي التكلفة $0.078 زمن الاستجابة (المتوسط) 68.6s
#77	Kimi K2.5 medium	Moonshot AI	2	7.0	$0.600	10/22	99.0s
إجمالي الاختبارات 22 الاختبارات الخاطئة 12 إجمالي التكلفة $0.600 زمن الاستجابة (المتوسط) 99.0s
#78	Mercury 2 medium	Inception	3	7.0	$0.093	10/22	2.72s
إجمالي الاختبارات 22 الاختبارات الخاطئة 12 إجمالي التكلفة $0.093 زمن الاستجابة (المتوسط) 2.72s
#80	Seed-2.0-Mini medium	Bytedance Seed	1	7.0	$0.101	11/22	92.5s
إجمالي الاختبارات 22 الاختبارات الخاطئة 11 إجمالي التكلفة $0.101 زمن الاستجابة (المتوسط) 92.5s
#81	KAT-Coder-Pro V2.5 medium	Kwaipilot	1	6.9	$0.467	11/22	24.0s
إجمالي الاختبارات 22 الاختبارات الخاطئة 11 إجمالي التكلفة $0.467 زمن الاستجابة (المتوسط) 24.0s
#82	DeepSeek V4 Pro none	DeepSeek	2	6.9	$0.096	10/22	11.6s
إجمالي الاختبارات 22 الاختبارات الخاطئة 12 إجمالي التكلفة $0.096 زمن الاستجابة (المتوسط) 11.6s
#83	GPT-5.6 Sol none	OpenAI	1	6.9	$0.524	11/22	2.16s
إجمالي الاختبارات 22 الاختبارات الخاطئة 11 إجمالي التكلفة $0.524 زمن الاستجابة (المتوسط) 2.16s
#84	MiMo-V2.5-Pro medium	Xiaomi	2	6.9	$0.187	12/22	33.9s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.187 زمن الاستجابة (المتوسط) 33.9s
#85	Qwen3.6 Flash medium	Qwen	1	6.9	$0.738	12/22	44.7s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.738 زمن الاستجابة (المتوسط) 44.7s

إخفاقات لم يتبع التعليمات

تصفية النماذج

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)