ترتيب حيل مضادة للذكاء الاصطناعي x لم يتبع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور لم يتبع التعليمات في حيل مضادة للذكاء الاصطناعي، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: اختبارات صحيحة ↑.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

DeepSeek V4 Pro 1

أسباب الفشل

إجابة خاطئة293 لم يتبع التعليمات33 تنسيق إضافي20 خطأ API14 انتهت المهلة4 لا توجد إجابة4

الفئات

حل الألغاز90 الذكاء العام78 حيل مضادة للذكاء الاصطناعي33 اتباع التعليمات18 البرمجة16 استدعاء الأدوات8 خاص بالمجال1 مجمّع1

32/32

الترتيب	النموذج	الشركة	عدد لم يتبع التعليمات	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#82	DeepSeek V4 Pro none	DeepSeek	1	3.2	$0.096	0/4	4.02s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.096 زمن الاستجابة (المتوسط) 4.02s
#148	Owl Alpha none	Openrouter	1	3.4	$0.000	0/4	2.78s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 2.78s
#154	MiMo-V2.5-Pro none	Xiaomi	1	3.3	$0.068	0/4	2.67s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.068 زمن الاستجابة (المتوسط) 2.67s
#157	Mimo V2 Omni none	Xiaomi	1	3.6	$0.021	0/4	1.63s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.021 زمن الاستجابة (المتوسط) 1.63s
#166	Qwen3 Coder Next none	Qwen	1	3.6	$0.025	0/4	3.31s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 3.31s
#187	Qwen3 Coder Next medium	Qwen	1	3.5	$0.032	0/4	8.64s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.032 زمن الاستجابة (المتوسط) 8.64s
#203	Grok 4.1 Fast none	X AI	1	3.2	$0.008	0/4	1.07s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 1.07s
#205	Laguna Xs.2 none	Poolside	1	3.0	$0.004	0/4	534ms
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.004 زمن الاستجابة (المتوسط) 534ms
#47	MiniMax M3 medium	Minimax	1	5.5	$0.286	1/4	14.9s
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.286 زمن الاستجابة (المتوسط) 14.9s
#160	Laguna XS 2.1 none	Poolside	1	5.3	$0.008	1/4	755ms
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 755ms
#194	GLM 4.7 Flash medium	Z.ai	1	4.7	$0.166	1/4	15.0s
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.166 زمن الاستجابة (المتوسط) 15.0s
#199	Hy3 preview none	Tencent	2	4.8	$0.003	1/4	11.1s
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.003 زمن الاستجابة (المتوسط) 11.1s
#201	Granite 4.1 8B none	IBM Granite	1	4.9	$0.007	1/4	844ms
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.007 زمن الاستجابة (المتوسط) 844ms
#21	GPT-5.2 medium	OpenAI	1	6.5	$0.951	2/4	7.81s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.951 زمن الاستجابة (المتوسط) 7.81s
#26	GPT-5 Mini medium	OpenAI	1	7.1	$0.237	2/4	13.9s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.237 زمن الاستجابة (المتوسط) 13.9s

تصفية النماذج

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

حيل مضادة للذكاء الاصطناعي: لم يتبع التعليمات

تصفية النماذج

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية