ترتيب حيل مضادة للذكاء الاصطناعي x إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في حيل مضادة للذكاء الاصطناعي، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

إجمالي الإخفاقات

293

النموذج الأكثر تأثرًا

Seed-2.0-Lite 4

أسباب الفشل

إجابة خاطئة293 لم يتبع التعليمات33 تنسيق إضافي20 خطأ API14 انتهت المهلة4 لا توجد إجابة4

الفئات

خاص بالمجال421 حيل مضادة للذكاء الاصطناعي293 البرمجة259 حل الألغاز204 معلومات عامة172 مجمّع69 الذكاء العام62 اتباع التعليمات61 تحليل البيانات واستخراجها41 استدعاء الأدوات3

140/140

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#188	KAT-Coder-Air V2.5 none	Kwaipilot	3	5.3	$0.067	1/4	2.68s
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.067 زمن الاستجابة (المتوسط) 2.68s
#193	Qwen3 Coder Next medium	Qwen	3	3.5	$0.032	0/4	8.64s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.032 زمن الاستجابة (المتوسط) 8.64s
#198	Laguna M.1 none	Poolside	3	3.4	$0.009	0/4	705ms
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.009 زمن الاستجابة (المتوسط) 705ms
#203	Grok 4.20 none	X AI	3	4.8	$0.057	1/4	501ms
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.057 زمن الاستجابة (المتوسط) 501ms
#209	Grok 4.1 Fast none	X AI	3	3.2	$0.008	0/4	1.07s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 1.07s
#216	LFM2-24B-A2B none	Liquid	3	2.5	$0.001	0/3	471ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.001 زمن الاستجابة (المتوسط) 471ms
#27	Muse Spark 1.1 low	Meta	2	7.9	$0.647	2/4	4.36s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.647 زمن الاستجابة (المتوسط) 4.36s
#50	DeepSeek V4 Pro high	DeepSeek	2	5.7	$0.200	1/4	25.7s
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.200 زمن الاستجابة (المتوسط) 25.7s
#51	MiniMax M3 medium	Minimax	2	5.5	$0.286	1/4	14.9s
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.286 زمن الاستجابة (المتوسط) 14.9s
#56	Kimi K2.7 Code medium	Moonshot AI	2	7.3	$0.740	2/4	11.6s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.740 زمن الاستجابة (المتوسط) 11.6s
#63	Qwen3.7 Max none	Qwen	2	6.5	$0.197	2/4	1.08s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.197 زمن الاستجابة (المتوسط) 1.08s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	2	6.9	$0.387	2/4	4.20s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.387 زمن الاستجابة (المتوسط) 4.20s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	2	7.0	$0.482	2/4	3.17s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.482 زمن الاستجابة (المتوسط) 3.17s
#75	Qwen3.7 Plus none	Qwen	2	6.5	$0.106	2/4	1.38s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.106 زمن الاستجابة (المتوسط) 1.38s
#86	DeepSeek V4 Pro none	DeepSeek	2	3.2	$0.096	0/4	4.02s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.096 زمن الاستجابة (المتوسط) 4.02s

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

حيل مضادة للذكاء الاصطناعي: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية