ترتيب حيل مضادة للذكاء الاصطناعي x إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في حيل مضادة للذكاء الاصطناعي، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

إجمالي الإخفاقات

293

النموذج الأكثر تأثرًا

Seed-2.0-Lite 4

أسباب الفشل

إجابة خاطئة293 لم يتبع التعليمات33 تنسيق إضافي20 خطأ API14 انتهت المهلة4 لا توجد إجابة4

الفئات

خاص بالمجال421 حيل مضادة للذكاء الاصطناعي293 البرمجة259 حل الألغاز204 معلومات عامة172 مجمّع69 الذكاء العام62 اتباع التعليمات61 تحليل البيانات واستخراجها41 استدعاء الأدوات3

140/140

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#44	Claude Sonnet 4.6 medium	Anthropic	1	6.5	$2.057	2/4	2.98s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $2.057 زمن الاستجابة (المتوسط) 2.98s
#48	GPT-5.6 Luna high	OpenAI	1	8.3	$1.017	3/4	2.99s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $1.017 زمن الاستجابة (المتوسط) 2.99s
#49	DeepSeek V4 Flash high	DeepSeek	1	8.3	$0.041	3/4	28.5s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $0.041 زمن الاستجابة (المتوسط) 28.5s
#54	GPT-5.6 Luna medium	OpenAI	1	8.3	$0.352	3/4	2.52s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $0.352 زمن الاستجابة (المتوسط) 2.52s
#57	GPT-5.4 Nano medium	OpenAI	1	8.3	$0.138	3/4	4.52s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $0.138 زمن الاستجابة (المتوسط) 4.52s
#58	GPT-5.3 Chat none	OpenAI	1	6.7	$0.571	2/4	3.86s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.571 زمن الاستجابة (المتوسط) 3.86s
#59	GPT-5.6 Terra low	OpenAI	1	8.3	$0.519	3/4	2.36s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $0.519 زمن الاستجابة (المتوسط) 2.36s
#60	GPT-5.4 Mini medium	OpenAI	1	8.6	$0.756	3/4	4.05s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $0.756 زمن الاستجابة (المتوسط) 4.05s
#61	Qwen3.5 Plus 2026-02-15 medium	Qwen	1	8.2	$0.437	3/4	45.8s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $0.437 زمن الاستجابة (المتوسط) 45.8s
#67	Claude Sonnet 4.6 none	Anthropic	1	4.8	$0.661	1/4	2.94s
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.661 زمن الاستجابة (المتوسط) 2.94s
#71	Step 3.7 Flash low	Stepfun	1	8.7	$0.454	3/4	4.02s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $0.454 زمن الاستجابة (المتوسط) 4.02s
#72	Kimi K2.6 medium	Moonshot AI	1	7.0	$1.036	2/4	11.6s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $1.036 زمن الاستجابة (المتوسط) 11.6s
#79	Grok 4.20 medium	X AI	1	8.2	$0.777	3/4	3.95s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $0.777 زمن الاستجابة (المتوسط) 3.95s
#81	Kimi K2.5 medium	Moonshot AI	1	7.3	$0.600	2/4	51.4s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.600 زمن الاستجابة (المتوسط) 51.4s
#82	Mercury 2 medium	Inception	1	6.9	$0.093	2/4	1.12s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.093 زمن الاستجابة (المتوسط) 1.12s

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

حيل مضادة للذكاء الاصطناعي: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية