ترتيب حيل مضادة للذكاء الاصطناعي x إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في حيل مضادة للذكاء الاصطناعي، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

إجمالي الإخفاقات

293

النموذج الأكثر تأثرًا

Seed-2.0-Lite 4

أسباب الفشل

إجابة خاطئة293 لم يتبع التعليمات33 تنسيق إضافي20 خطأ API14 انتهت المهلة4 لا توجد إجابة4

الفئات

خاص بالمجال412 حيل مضادة للذكاء الاصطناعي293 البرمجة252 حل الألغاز201 معلومات عامة168 مجمّع68 اتباع التعليمات61 الذكاء العام59 تحليل البيانات واستخراجها41 استدعاء الأدوات3

140/140

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#116	Seed-2.0-Lite none	Bytedance Seed	4	3.0	$0.066	0/4	2.43s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.066 زمن الاستجابة (المتوسط) 2.43s
#118	Gemini 2.5 Flash none	Google	4	3.0	$0.017	0/4	582ms
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.017 زمن الاستجابة (المتوسط) 582ms
#124	Qwen3.6 Flash none	Qwen	4	3.1	$0.062	0/4	1.63s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.062 زمن الاستجابة (المتوسط) 1.63s
#125	Qwen3.5-Flash none	Qwen	4	3.5	$0.073	0/4	1.32s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.073 زمن الاستجابة (المتوسط) 1.32s
#127	Qwen3.5-35B-A3B none	Qwen	4	3.4	$0.106	0/4	1.43s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.106 زمن الاستجابة (المتوسط) 1.43s
#129	Nemotron 3 Ultra none	NVIDIA	4	3.5	$0.095	0/4	2.35s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.095 زمن الاستجابة (المتوسط) 2.35s
#136	GPT-5.4 Mini none	OpenAI	4	3.1	$0.095	0/4	929ms
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.095 زمن الاستجابة (المتوسط) 929ms
#139	GPT-5.4 none	OpenAI	4	3.2	$0.397	0/4	1.21s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.397 زمن الاستجابة (المتوسط) 1.21s
#147	Mimo V2 PRO none	Xiaomi	4	3.5	$0.045	0/4	1.80s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.045 زمن الاستجابة (المتوسط) 1.80s
#150	DeepSeek V4 Flash none	DeepSeek	4	3.0	$0.044	0/4	20.2s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.044 زمن الاستجابة (المتوسط) 20.2s
#151	GLM 5.1 none	Z.ai	4	4.0	$0.164	0/4	2.11s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.164 زمن الاستجابة (المتوسط) 2.11s
#152	Qwen3.6 27B none	Qwen	4	3.8	$0.087	0/4	2.83s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.087 زمن الاستجابة (المتوسط) 2.83s
#155	Kimi K2.5 none	Moonshot AI	4	3.6	$0.127	0/4	6.24s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.127 زمن الاستجابة (المتوسط) 6.24s
#161	Qwen3.6 35B A3B none	Qwen	4	3.6	$0.061	0/4	2.10s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.061 زمن الاستجابة (المتوسط) 2.10s
#162	Ling-2.6-1T none	Inclusionai	4	3.4	$0.016	0/4	6.55s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.016 زمن الاستجابة (المتوسط) 6.55s

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

حيل مضادة للذكاء الاصطناعي: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية