ترتيب حيل مضادة للذكاء الاصطناعي x لم يتبع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور لم يتبع التعليمات في حيل مضادة للذكاء الاصطناعي، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: زمن الاستجابة (المتوسط) ↓.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

Ring-2.6-1T 1

أسباب الفشل

إجابة خاطئة293 لم يتبع التعليمات33 تنسيق إضافي20 خطأ API14 انتهت المهلة4 لا توجد إجابة4

الفئات

حل الألغاز90 الذكاء العام78 حيل مضادة للذكاء الاصطناعي33 اتباع التعليمات18 البرمجة16 استدعاء الأدوات8 خاص بالمجال1 مجمّع1

32/32

الترتيب	النموذج	الشركة	عدد لم يتبع التعليمات	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#179	Ring-2.6-1T none	Inclusionai	1	9.2	$0.026	3/4	43.3s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $0.026 زمن الاستجابة (المتوسط) 43.3s
#172	MiniMax M2.7 medium	Minimax	1	7.9	$0.163	2/4	40.3s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.163 زمن الاستجابة (المتوسط) 40.3s
#206	gpt-oss-120b none	OpenAI	1	6.5	$0.010	2/4	32.8s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.010 زمن الاستجابة (المتوسط) 32.8s
#190	MiniMax M2.5 medium	Minimax	1	7.9	$0.340	2/4	20.8s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.340 زمن الاستجابة (المتوسط) 20.8s
#194	GLM 4.7 Flash medium	Z.ai	1	4.7	$0.166	1/4	15.0s
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.166 زمن الاستجابة (المتوسط) 15.0s
#47	MiniMax M3 medium	Minimax	1	5.5	$0.286	1/4	14.9s
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.286 زمن الاستجابة (المتوسط) 14.9s
#26	GPT-5 Mini medium	OpenAI	1	7.1	$0.237	2/4	13.9s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.237 زمن الاستجابة (المتوسط) 13.9s
#178	Ling-2.6-flash none	Inclusionai	1	6.8	$0.002	2/4	11.8s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.002 زمن الاستجابة (المتوسط) 11.8s
#68	Kimi K2.6 medium	Moonshot AI	1	7.0	$1.036	2/4	11.6s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $1.036 زمن الاستجابة (المتوسط) 11.6s
#199	Hy3 preview none	Tencent	2	4.8	$0.003	1/4	11.1s
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.003 زمن الاستجابة (المتوسط) 11.1s
#93	GLM 5V Turbo medium	Z.ai	1	7.2	$0.457	2/4	10.8s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.457 زمن الاستجابة (المتوسط) 10.8s
#121	gpt-oss-120b medium	OpenAI	1	6.7	$0.019	2/4	10.2s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.019 زمن الاستجابة (المتوسط) 10.2s
#29	Step 3.7 Flash medium	Stepfun	1	8.7	$0.515	3/4	9.65s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $0.515 زمن الاستجابة (المتوسط) 9.65s
#187	Qwen3 Coder Next medium	Qwen	1	3.5	$0.032	0/4	8.64s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.032 زمن الاستجابة (المتوسط) 8.64s
#27	Muse Spark 1.1 high	Meta	1	7.5	$1.694	2/4	8.60s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $1.694 زمن الاستجابة (المتوسط) 8.60s

تصفية النماذج

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

حيل مضادة للذكاء الاصطناعي: لم يتبع التعليمات

تصفية النماذج

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية