ترتيب حيل مضادة للذكاء الاصطناعي x إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في حيل مضادة للذكاء الاصطناعي، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: زمن الاستجابة (المتوسط) ↑.

النماذج المعروضة

إجمالي الإخفاقات

293

النموذج الأكثر تأثرًا

Mistral Small 4 4

أسباب الفشل

إجابة خاطئة293 لم يتبع التعليمات33 تنسيق إضافي20 خطأ API14 انتهت المهلة4 لا توجد إجابة4

الفئات

خاص بالمجال412 حيل مضادة للذكاء الاصطناعي293 البرمجة252 حل الألغاز201 معلومات عامة168 مجمّع68 اتباع التعليمات61 الذكاء العام59 تحليل البيانات واستخراجها41 استدعاء الأدوات3

140/140

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#165	Mistral Small 4 none	Mistral	4	3.4	$0.022	0/4	395ms
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.022 زمن الاستجابة (المتوسط) 395ms
#210	LFM2-24B-A2B none	Liquid	3	2.5	$0.001	0/3	471ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.001 زمن الاستجابة (المتوسط) 471ms
#189	Mercury 2 none	Inception	4	3.0	$0.030	0/4	483ms
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.030 زمن الاستجابة (المتوسط) 483ms
#197	Grok 4.20 none	X AI	3	4.8	$0.057	1/4	501ms
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.057 زمن الاستجابة (المتوسط) 501ms
#205	Laguna Xs.2 none	Poolside	2	3.0	$0.004	0/4	534ms
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.004 زمن الاستجابة (المتوسط) 534ms
#118	Gemini 2.5 Flash none	Google	4	3.0	$0.017	0/4	582ms
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.017 زمن الاستجابة (المتوسط) 582ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	2	4.8	$0.000	1/4	584ms
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 584ms
#191	Grok 4.20 Beta none	X AI	4	4.0	$0.087	0/4	597ms
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.087 زمن الاستجابة (المتوسط) 597ms
#192	Laguna M.1 none	Poolside	3	3.4	$0.009	0/4	705ms
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.009 زمن الاستجابة (المتوسط) 705ms
#160	Laguna XS 2.1 none	Poolside	2	5.3	$0.008	1/4	755ms
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 755ms
#103	Qwen3.5-27B none	Qwen	3	4.8	$0.090	1/4	788ms
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.090 زمن الاستجابة (المتوسط) 788ms
#201	Granite 4.1 8B none	IBM Granite	2	4.9	$0.007	1/4	844ms
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.007 زمن الاستجابة (المتوسط) 844ms
#88	Gemini 3.5 Flash minimal	Google	2	6.5	$0.300	2/4	892ms
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.300 زمن الاستجابة (المتوسط) 892ms
#159	GPT-5.6 Luna none	OpenAI	3	4.8	$0.142	1/4	901ms
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.142 زمن الاستجابة (المتوسط) 901ms
#136	GPT-5.4 Mini none	OpenAI	4	3.1	$0.095	0/4	929ms
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.095 زمن الاستجابة (المتوسط) 929ms

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

حيل مضادة للذكاء الاصطناعي: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية