ترتيب حيل مضادة للذكاء الاصطناعي x إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في حيل مضادة للذكاء الاصطناعي، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

إجمالي الإخفاقات

293

النموذج الأكثر تأثرًا

Seed-2.0-Lite 4

أسباب الفشل

إجابة خاطئة293 لم يتبع التعليمات33 تنسيق إضافي20 خطأ API14 انتهت المهلة4 لا توجد إجابة4

الفئات

خاص بالمجال421 حيل مضادة للذكاء الاصطناعي293 البرمجة259 حل الألغاز204 معلومات عامة172 مجمّع69 الذكاء العام62 اتباع التعليمات61 تحليل البيانات واستخراجها41 استدعاء الأدوات3

140/140

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#91	GPT-5.5 none	OpenAI	2	6.9	$0.544	2/4	1.31s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.544 زمن الاستجابة (المتوسط) 1.31s
#92	Gemini 3.5 Flash minimal	Google	2	6.5	$0.300	2/4	892ms
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.300 زمن الاستجابة (المتوسط) 892ms
#108	Laguna XS 2.1 medium	Poolside	2	4.8	$0.068	1/4	42.0s
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.068 زمن الاستجابة (المتوسط) 42.0s
#111	Gemini 3.1 Flash Lite low	Google	2	7.3	$0.621	2/4	1.84s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.621 زمن الاستجابة (المتوسط) 1.84s
#121	Gemma 4 31B none	Google	2	6.5	$0.021	2/4	1.85s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.021 زمن الاستجابة (المتوسط) 1.85s
#128	Gemini 3.1 Flash Lite none	Google	2	7.5	$0.046	2/4	1.07s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.046 زمن الاستجابة (المتوسط) 1.07s
#134	GPT-5 Nano medium	OpenAI	2	6.5	$0.114	2/4	25.5s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.114 زمن الاستجابة (المتوسط) 25.5s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	2	7.3	$0.041	2/4	3.50s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.041 زمن الاستجابة (المتوسط) 3.50s
#166	Laguna XS 2.1 none	Poolside	2	5.3	$0.008	1/4	755ms
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 755ms
#172	Qwen3 Coder Next none	Qwen	2	3.6	$0.025	0/4	3.31s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 3.31s
#177	North Mini Code none	Cohere	2	3.0	$0.000	0/4	22.5s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 22.5s
#190	Hunter Alpha medium	OpenRouter	2	7.3	$0.000	2/4	4.75s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 4.75s
#200	GLM 4.7 Flash medium	Z.ai	2	4.7	$0.166	1/4	15.0s
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.166 زمن الاستجابة (المتوسط) 15.0s
#201	Elephant Alpha medium	Openrouter	2	6.6	$0.000	2/4	1.19s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 1.19s
#207	Granite 4.1 8B none	IBM Granite	2	4.9	$0.007	1/4	844ms
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.007 زمن الاستجابة (المتوسط) 844ms

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

حيل مضادة للذكاء الاصطناعي: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية