ترتيب حيل مضادة للذكاء الاصطناعي x تنسيق إضافي

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور تنسيق إضافي في حيل مضادة للذكاء الاصطناعي، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: اختبارات صحيحة ↓.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

Grok Build 0.1 1

أسباب الفشل

إجابة خاطئة293 لم يتبع التعليمات33 تنسيق إضافي20 خطأ API14 انتهت المهلة4 لا توجد إجابة4

الفئات

حيل مضادة للذكاء الاصطناعي20 البرمجة18 خاص بالمجال17 حل الألغاز8 تحليل البيانات واستخراجها6 اتباع التعليمات3 مجمّع1

14/14

الترتيب	النموذج	الشركة	عدد تنسيق إضافي	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#48	Grok Build 0.1 medium	X AI	1	8.3	$1.097	3/4	7.43s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $1.097 زمن الاستجابة (المتوسط) 7.43s
#58	Qwen3.5-27B medium	Qwen	1	8.7	$1.627	3/4	19.8s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $1.627 زمن الاستجابة (المتوسط) 19.8s
#113	MiMo-V2-Flash medium	Xiaomi	1	8.1	$0.043	3/4	15.8s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $0.043 زمن الاستجابة (المتوسط) 15.8s
#137	North Mini Code medium	Cohere	1	8.4	$0.000	3/4	64.8s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 64.8s
#40	Claude Sonnet 4.6 medium	Anthropic	1	6.5	$2.057	2/4	2.98s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $2.057 زمن الاستجابة (المتوسط) 2.98s
#43	Claude Opus 4.6 medium	Anthropic	2	6.4	$3.059	2/4	7.45s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $3.059 زمن الاستجابة (المتوسط) 7.45s
#66	Claude Opus 4.8 none	Anthropic	2	6.5	$1.166	2/4	3.40s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $1.166 زمن الاستجابة (المتوسط) 3.40s
#181	Grok 4.20 Multi Agent Beta medium	X AI	1	6.9	$5.599	2/4	3.46s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $5.599 زمن الاستجابة (المتوسط) 3.46s
#63	Claude Sonnet 4.6 none	Anthropic	2	4.8	$0.661	1/4	2.94s
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.661 زمن الاستجابة (المتوسط) 2.94s
#112	Claude Sonnet 5 none	Anthropic	2	5.3	$0.548	1/4	3.60s
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.548 زمن الاستجابة (المتوسط) 3.60s
#82	DeepSeek V4 Pro none	DeepSeek	1	3.2	$0.096	0/4	4.02s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.096 زمن الاستجابة (المتوسط) 4.02s
#166	Qwen3 Coder Next none	Qwen	1	3.6	$0.025	0/4	3.31s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 3.31s
#171	North Mini Code none	Cohere	2	3.0	$0.000	0/4	22.5s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 22.5s
#173	DeepSeek V3.2 none	DeepSeek	2	3.2	$0.054	0/4	9.35s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.054 زمن الاستجابة (المتوسط) 9.35s

تصفية النماذج

أفضل النماذج حسب عدد تنسيق إضافي

عدد تنسيق إضافي مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

حيل مضادة للذكاء الاصطناعي: تنسيق إضافي

تصفية النماذج

أفضل النماذج حسب عدد تنسيق إضافي

عدد تنسيق إضافي مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية