ترتيب حيل مضادة للذكاء الاصطناعي x إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في حيل مضادة للذكاء الاصطناعي، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

إجمالي الإخفاقات

293

النموذج الأكثر تأثرًا

Seed-2.0-Lite 4

أسباب الفشل

إجابة خاطئة293 لم يتبع التعليمات33 تنسيق إضافي20 خطأ API14 انتهت المهلة4 لا توجد إجابة4

الفئات

خاص بالمجال412 حيل مضادة للذكاء الاصطناعي293 البرمجة252 حل الألغاز201 معلومات عامة168 مجمّع68 اتباع التعليمات61 الذكاء العام59 تحليل البيانات واستخراجها41 استدعاء الأدوات3

140/140

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#165	Mistral Small 4 none	Mistral	4	3.4	$0.022	0/4	395ms
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.022 زمن الاستجابة (المتوسط) 395ms
#168	MiMo-V2.5 none	Xiaomi	4	3.5	$0.025	0/4	2.19s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 2.19s
#169	Qwen3.5-9B none	Qwen	4	3.1	$0.021	0/4	1.71s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.021 زمن الاستجابة (المتوسط) 1.71s
#170	GLM 5 Turbo none	Z.ai	4	3.0	$0.047	0/4	2.84s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.047 زمن الاستجابة (المتوسط) 2.84s
#180	GPT-5.4 Nano none	OpenAI	4	3.5	$0.041	0/4	1.18s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.041 زمن الاستجابة (المتوسط) 1.18s
#183	Trinity Large Preview none	Arcee AI	4	3.1	$0.008	0/4	2.07s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 2.07s
#189	Mercury 2 none	Inception	4	3.0	$0.030	0/4	483ms
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.030 زمن الاستجابة (المتوسط) 483ms
#191	Grok 4.20 Beta none	X AI	4	4.0	$0.087	0/4	597ms
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.087 زمن الاستجابة (المتوسط) 597ms
#196	Hunter Alpha none	OpenRouter	4	3.5	$0.000	0/4	3.81s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 3.81s
#200	MiMo-V2-Flash none	Xiaomi	4	3.2	$0.025	0/4	1.19s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 1.19s
#98	Qwen3.6 Max Preview none	Qwen	3	5.2	$0.231	1/4	2.63s
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.231 زمن الاستجابة (المتوسط) 2.63s
#103	Qwen3.5-27B none	Qwen	3	4.8	$0.090	1/4	788ms
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.090 زمن الاستجابة (المتوسط) 788ms
#107	Qwen3.5 Plus 2026-02-15 none	Qwen	3	4.8	$0.073	1/4	1.91s
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.073 زمن الاستجابة (المتوسط) 1.91s
#111	LongCat 2.0 none	Meituan	3	4.8	$0.044	1/4	2.87s
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.044 زمن الاستجابة (المتوسط) 2.87s
#126	Qwen3.5 Plus 2026-04-20 none	Qwen	3	4.8	$0.122	1/4	1.88s
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.122 زمن الاستجابة (المتوسط) 1.88s

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

حيل مضادة للذكاء الاصطناعي: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية