ترتيب حيل مضادة للذكاء الاصطناعي x إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في حيل مضادة للذكاء الاصطناعي، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

إجمالي الإخفاقات

293

النموذج الأكثر تأثرًا

Seed-2.0-Lite 4

أسباب الفشل

إجابة خاطئة293 لم يتبع التعليمات33 تنسيق إضافي20 خطأ API14 انتهت المهلة4 لا توجد إجابة4

الفئات

خاص بالمجال421 حيل مضادة للذكاء الاصطناعي293 البرمجة259 حل الألغاز204 معلومات عامة172 مجمّع69 الذكاء العام62 اتباع التعليمات61 تحليل البيانات واستخراجها41 استدعاء الأدوات3

140/140

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#138	GPT-5.6 Terra none	OpenAI	3	4.8	$0.349	1/4	942ms
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.349 زمن الاستجابة (المتوسط) 942ms
#144	Kimi K2.6 none	Moonshot AI	3	4.6	$0.184	1/4	1.39s
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.184 زمن الاستجابة (المتوسط) 1.39s
#147	GLM 5 none	Z.ai	3	4.8	$0.041	1/4	2.37s
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.041 زمن الاستجابة (المتوسط) 2.37s
#148	Qwen3.5-122B-A10B none	Qwen	3	4.8	$0.247	1/4	1.59s
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.247 زمن الاستجابة (المتوسط) 1.59s
#151	GLM 5V Turbo none	Z.ai	3	4.8	$0.052	1/4	3.13s
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.052 زمن الاستجابة (المتوسط) 3.13s
#152	Owl Alpha medium	Openrouter	3	4.8	$0.000	1/4	3.97s
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 3.97s
#154	Owl Alpha none	Openrouter	3	3.4	$0.000	0/4	2.78s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 2.78s
#160	MiMo-V2.5-Pro none	Xiaomi	3	3.3	$0.068	0/4	2.67s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.068 زمن الاستجابة (المتوسط) 2.67s
#163	Mimo V2 Omni none	Xiaomi	3	3.6	$0.021	0/4	1.63s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.021 زمن الاستجابة (المتوسط) 1.63s
#165	GPT-5.6 Luna none	OpenAI	3	4.8	$0.142	1/4	901ms
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.142 زمن الاستجابة (المتوسط) 901ms
#170	Inkling none	Thinkingmachines	3	4.8	$0.147	1/4	1.43s
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.147 زمن الاستجابة (المتوسط) 1.43s
#173	Mistral Small 4 medium	Mistral	3	5.6	$0.096	1/4	2.67s
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.096 زمن الاستجابة (المتوسط) 2.67s
#180	GPT-4o-mini none	OpenAI	3	4.8	$0.010	1/4	1.34s
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.010 زمن الاستجابة (المتوسط) 1.34s
#182	GLM 4.7 Flash none	Z.ai	3	5.2	$0.016	1/4	5.51s
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.016 زمن الاستجابة (المتوسط) 5.51s
#183	Nemotron 3 Super none	NVIDIA	3	4.8	$0.008	1/4	4.46s
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 4.46s

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

حيل مضادة للذكاء الاصطناعي: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية