ترتيب حيل مضادة للذكاء الاصطناعي x لم يتبع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور لم يتبع التعليمات في حيل مضادة للذكاء الاصطناعي، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: زمن الاستجابة (المتوسط) ↑.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

Laguna Xs.2 1

أسباب الفشل

إجابة خاطئة293 لم يتبع التعليمات33 تنسيق إضافي20 خطأ API14 انتهت المهلة4 لا توجد إجابة4

الفئات

حل الألغاز90 الذكاء العام78 حيل مضادة للذكاء الاصطناعي33 اتباع التعليمات18 البرمجة16 استدعاء الأدوات8 خاص بالمجال1 مجمّع1

32/32

الترتيب	النموذج	الشركة	عدد لم يتبع التعليمات	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#205	Laguna Xs.2 none	Poolside	1	3.0	$0.004	0/4	534ms
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.004 زمن الاستجابة (المتوسط) 534ms
#160	Laguna XS 2.1 none	Poolside	1	5.3	$0.008	1/4	755ms
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 755ms
#201	Granite 4.1 8B none	IBM Granite	1	4.9	$0.007	1/4	844ms
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.007 زمن الاستجابة (المتوسط) 844ms
#193	Elephant Alpha none	Openrouter	1	6.6	$0.000	2/4	963ms
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 963ms
#106	Gemini 3.1 Flash Lite Preview none	Google	1	7.5	$0.052	2/4	1.04s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.052 زمن الاستجابة (المتوسط) 1.04s
#203	Grok 4.1 Fast none	X AI	1	3.2	$0.008	0/4	1.07s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 1.07s
#78	Mercury 2 medium	Inception	1	6.9	$0.093	2/4	1.12s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.093 زمن الاستجابة (المتوسط) 1.12s
#157	Mimo V2 Omni none	Xiaomi	1	3.6	$0.021	0/4	1.63s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.021 زمن الاستجابة (المتوسط) 1.63s
#64	Gemini 3.1 Flash Lite Preview medium	Google	1	9.1	$0.115	3/4	2.33s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $0.115 زمن الاستجابة (المتوسط) 2.33s
#65	Gemini 3.1 Flash Lite medium	Google	1	9.1	$0.117	3/4	2.39s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $0.117 زمن الاستجابة (المتوسط) 2.39s
#154	MiMo-V2.5-Pro none	Xiaomi	1	3.3	$0.068	0/4	2.67s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.068 زمن الاستجابة (المتوسط) 2.67s
#148	Owl Alpha none	Openrouter	1	3.4	$0.000	0/4	2.78s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 2.78s
#166	Qwen3 Coder Next none	Qwen	1	3.6	$0.025	0/4	3.31s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 3.31s
#54	GPT-5.3 Chat none	OpenAI	1	6.7	$0.571	2/4	3.86s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.571 زمن الاستجابة (المتوسط) 3.86s
#82	DeepSeek V4 Pro none	DeepSeek	1	3.2	$0.096	0/4	4.02s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.096 زمن الاستجابة (المتوسط) 4.02s

تصفية النماذج

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

حيل مضادة للذكاء الاصطناعي: لم يتبع التعليمات

تصفية النماذج

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية