ترتيب حيل مضادة للذكاء الاصطناعي x لم يتبع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور لم يتبع التعليمات في حيل مضادة للذكاء الاصطناعي، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: عدد الإخفاقات ↑.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

GPT-5.2 1

أسباب الفشل

إجابة خاطئة293 لم يتبع التعليمات33 تنسيق إضافي20 خطأ API14 انتهت المهلة4 لا توجد إجابة4

الفئات

حل الألغاز90 الذكاء العام78 حيل مضادة للذكاء الاصطناعي33 اتباع التعليمات18 البرمجة16 استدعاء الأدوات8 خاص بالمجال1 مجمّع1

32/32

الترتيب	النموذج	الشركة	عدد لم يتبع التعليمات	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#21	GPT-5.2 medium	OpenAI	1	6.5	$0.951	2/4	7.81s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.951 زمن الاستجابة (المتوسط) 7.81s
#26	GPT-5 Mini medium	OpenAI	1	7.1	$0.237	2/4	13.9s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.237 زمن الاستجابة (المتوسط) 13.9s
#27	Muse Spark 1.1 high	Meta	1	7.5	$1.694	2/4	8.60s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $1.694 زمن الاستجابة (المتوسط) 8.60s
#29	Step 3.7 Flash medium	Stepfun	1	8.7	$0.515	3/4	9.65s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $0.515 زمن الاستجابة (المتوسط) 9.65s
#47	MiniMax M3 medium	Minimax	1	5.5	$0.286	1/4	14.9s
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.286 زمن الاستجابة (المتوسط) 14.9s
#54	GPT-5.3 Chat none	OpenAI	1	6.7	$0.571	2/4	3.86s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.571 زمن الاستجابة (المتوسط) 3.86s
#64	Gemini 3.1 Flash Lite Preview medium	Google	1	9.1	$0.115	3/4	2.33s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $0.115 زمن الاستجابة (المتوسط) 2.33s
#65	Gemini 3.1 Flash Lite medium	Google	1	9.1	$0.117	3/4	2.39s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $0.117 زمن الاستجابة (المتوسط) 2.39s
#68	Kimi K2.6 medium	Moonshot AI	1	7.0	$1.036	2/4	11.6s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $1.036 زمن الاستجابة (المتوسط) 11.6s
#78	Mercury 2 medium	Inception	1	6.9	$0.093	2/4	1.12s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.093 زمن الاستجابة (المتوسط) 1.12s
#82	DeepSeek V4 Pro none	DeepSeek	1	3.2	$0.096	0/4	4.02s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.096 زمن الاستجابة (المتوسط) 4.02s
#93	GLM 5V Turbo medium	Z.ai	1	7.2	$0.457	2/4	10.8s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.457 زمن الاستجابة (المتوسط) 10.8s
#97	LongCat 2.0 high	Meituan	1	8.9	$0.469	3/4	7.76s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $0.469 زمن الاستجابة (المتوسط) 7.76s
#106	Gemini 3.1 Flash Lite Preview none	Google	1	7.5	$0.052	2/4	1.04s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.052 زمن الاستجابة (المتوسط) 1.04s
#121	gpt-oss-120b medium	OpenAI	1	6.7	$0.019	2/4	10.2s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.019 زمن الاستجابة (المتوسط) 10.2s

تصفية النماذج

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

حيل مضادة للذكاء الاصطناعي: لم يتبع التعليمات

تصفية النماذج

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية