ترتيب حيل مضادة للذكاء الاصطناعي x لم يتبع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور لم يتبع التعليمات في حيل مضادة للذكاء الاصطناعي، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

Hy3 preview 2

أسباب الفشل

إجابة خاطئة293 لم يتبع التعليمات33 تنسيق إضافي20 خطأ API14 انتهت المهلة4 لا توجد إجابة4

الفئات

حل الألغاز90 الذكاء العام78 حيل مضادة للذكاء الاصطناعي33 اتباع التعليمات18 البرمجة16 استدعاء الأدوات8 خاص بالمجال1 مجمّع1

32/32

الترتيب	النموذج	الشركة	عدد لم يتبع التعليمات	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#121	gpt-oss-120b medium	OpenAI	1	6.7	$0.019	2/4	10.2s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.019 زمن الاستجابة (المتوسط) 10.2s
#148	Owl Alpha none	Openrouter	1	3.4	$0.000	0/4	2.78s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 2.78s
#154	MiMo-V2.5-Pro none	Xiaomi	1	3.3	$0.068	0/4	2.67s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.068 زمن الاستجابة (المتوسط) 2.67s
#157	Mimo V2 Omni none	Xiaomi	1	3.6	$0.021	0/4	1.63s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.021 زمن الاستجابة (المتوسط) 1.63s
#160	Laguna XS 2.1 none	Poolside	1	5.3	$0.008	1/4	755ms
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 755ms
#166	Qwen3 Coder Next none	Qwen	1	3.6	$0.025	0/4	3.31s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 3.31s
#172	MiniMax M2.7 medium	Minimax	1	7.9	$0.163	2/4	40.3s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.163 زمن الاستجابة (المتوسط) 40.3s
#178	Ling-2.6-flash none	Inclusionai	1	6.8	$0.002	2/4	11.8s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.002 زمن الاستجابة (المتوسط) 11.8s
#179	Ring-2.6-1T none	Inclusionai	1	9.2	$0.026	3/4	43.3s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $0.026 زمن الاستجابة (المتوسط) 43.3s
#187	Qwen3 Coder Next medium	Qwen	1	3.5	$0.032	0/4	8.64s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.032 زمن الاستجابة (المتوسط) 8.64s
#190	MiniMax M2.5 medium	Minimax	1	7.9	$0.340	2/4	20.8s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.340 زمن الاستجابة (المتوسط) 20.8s
#193	Elephant Alpha none	Openrouter	1	6.6	$0.000	2/4	963ms
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 963ms
#194	GLM 4.7 Flash medium	Z.ai	1	4.7	$0.166	1/4	15.0s
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.166 زمن الاستجابة (المتوسط) 15.0s
#201	Granite 4.1 8B none	IBM Granite	1	4.9	$0.007	1/4	844ms
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.007 زمن الاستجابة (المتوسط) 844ms
#203	Grok 4.1 Fast none	X AI	1	3.2	$0.008	0/4	1.07s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 1.07s

تصفية النماذج

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

حيل مضادة للذكاء الاصطناعي: لم يتبع التعليمات

تصفية النماذج

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية