ترتيب حيل مضادة للذكاء الاصطناعي x إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في حيل مضادة للذكاء الاصطناعي، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: اختبارات صحيحة ↑.

النماذج المعروضة

إجمالي الإخفاقات

293

النموذج الأكثر تأثرًا

DeepSeek V4 Pro 2

أسباب الفشل

إجابة خاطئة293 لم يتبع التعليمات33 تنسيق إضافي20 خطأ API14 انتهت المهلة4 لا توجد إجابة4

الفئات

خاص بالمجال421 حيل مضادة للذكاء الاصطناعي293 البرمجة259 حل الألغاز204 معلومات عامة172 مجمّع69 الذكاء العام62 اتباع التعليمات61 تحليل البيانات واستخراجها41 استدعاء الأدوات3

140/140

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#86	DeepSeek V4 Pro none	DeepSeek	2	3.2	$0.096	0/4	4.02s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.096 زمن الاستجابة (المتوسط) 4.02s
#122	Seed-2.0-Lite none	Bytedance Seed	4	3.0	$0.066	0/4	2.43s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.066 زمن الاستجابة (المتوسط) 2.43s
#124	Gemini 2.5 Flash none	Google	4	3.0	$0.017	0/4	582ms
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.017 زمن الاستجابة (المتوسط) 582ms
#130	Qwen3.6 Flash none	Qwen	4	3.1	$0.062	0/4	1.63s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.062 زمن الاستجابة (المتوسط) 1.63s
#131	Qwen3.5-Flash none	Qwen	4	3.5	$0.073	0/4	1.32s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.073 زمن الاستجابة (المتوسط) 1.32s
#133	Qwen3.5-35B-A3B none	Qwen	4	3.4	$0.106	0/4	1.43s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.106 زمن الاستجابة (المتوسط) 1.43s
#135	Nemotron 3 Ultra none	NVIDIA	4	3.5	$0.095	0/4	2.35s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.095 زمن الاستجابة (المتوسط) 2.35s
#142	GPT-5.4 Mini none	OpenAI	4	3.1	$0.095	0/4	929ms
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.095 زمن الاستجابة (المتوسط) 929ms
#145	GPT-5.4 none	OpenAI	4	3.2	$0.397	0/4	1.21s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.397 زمن الاستجابة (المتوسط) 1.21s
#153	Mimo V2 PRO none	Xiaomi	4	3.5	$0.045	0/4	1.80s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.045 زمن الاستجابة (المتوسط) 1.80s
#154	Owl Alpha none	Openrouter	3	3.4	$0.000	0/4	2.78s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 2.78s
#156	DeepSeek V4 Flash none	DeepSeek	4	3.0	$0.042	0/4	20.2s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.042 زمن الاستجابة (المتوسط) 20.2s
#157	GLM 5.1 none	Z.ai	4	4.0	$0.164	0/4	2.11s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.164 زمن الاستجابة (المتوسط) 2.11s
#158	Qwen3.6 27B none	Qwen	4	3.8	$0.087	0/4	2.83s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.087 زمن الاستجابة (المتوسط) 2.83s
#160	MiMo-V2.5-Pro none	Xiaomi	3	3.3	$0.068	0/4	2.67s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.068 زمن الاستجابة (المتوسط) 2.67s

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

حيل مضادة للذكاء الاصطناعي: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية