ترتيب حيل مضادة للذكاء الاصطناعي x إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في حيل مضادة للذكاء الاصطناعي، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: زمن الاستجابة (المتوسط) ↓.

النماذج المعروضة

إجمالي الإخفاقات

293

النموذج الأكثر تأثرًا

Seed-2.0-Mini 1

أسباب الفشل

إجابة خاطئة293 لم يتبع التعليمات33 تنسيق إضافي20 خطأ API14 انتهت المهلة4 لا توجد إجابة4

الفئات

خاص بالمجال421 حيل مضادة للذكاء الاصطناعي293 البرمجة259 حل الألغاز204 معلومات عامة172 مجمّع69 الذكاء العام62 اتباع التعليمات61 تحليل البيانات واستخراجها41 استدعاء الأدوات3

140/140

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#84	Seed-2.0-Mini medium	Bytedance Seed	1	6.6	$0.101	2/4	74.7s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.101 زمن الاستجابة (المتوسط) 74.7s
#81	Kimi K2.5 medium	Moonshot AI	1	7.3	$0.600	2/4	51.4s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.600 زمن الاستجابة (المتوسط) 51.4s
#61	Qwen3.5 Plus 2026-02-15 medium	Qwen	1	8.2	$0.437	3/4	45.8s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $0.437 زمن الاستجابة (المتوسط) 45.8s
#108	Laguna XS 2.1 medium	Poolside	2	4.8	$0.068	1/4	42.0s
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.068 زمن الاستجابة (المتوسط) 42.0s
#178	MiniMax M2.7 medium	Minimax	1	7.9	$0.163	2/4	40.3s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.163 زمن الاستجابة (المتوسط) 40.3s
#149	Gemini 3.1 Flash Lite high	Google	1	8.7	$2.044	3/4	37.2s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $2.044 زمن الاستجابة (المتوسط) 37.2s
#210	Qwen3.5-9B medium	Qwen	1	5.1	$0.036	1/4	34.4s
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.036 زمن الاستجابة (المتوسط) 34.4s
#212	gpt-oss-120b none	OpenAI	1	6.5	$0.010	2/4	32.8s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.010 زمن الاستجابة (المتوسط) 32.8s
#49	DeepSeek V4 Flash high	DeepSeek	1	8.3	$0.041	3/4	28.5s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $0.041 زمن الاستجابة (المتوسط) 28.5s
#50	DeepSeek V4 Pro high	DeepSeek	2	5.7	$0.200	1/4	25.7s
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.200 زمن الاستجابة (المتوسط) 25.7s
#134	GPT-5 Nano medium	OpenAI	2	6.5	$0.114	2/4	25.5s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.114 زمن الاستجابة (المتوسط) 25.5s
#177	North Mini Code none	Cohere	2	3.0	$0.000	0/4	22.5s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 22.5s
#156	DeepSeek V4 Flash none	DeepSeek	4	3.0	$0.042	0/4	20.2s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.042 زمن الاستجابة (المتوسط) 20.2s
#39	Seed-2.0-Lite medium	Bytedance Seed	1	8.3	$0.234	3/4	18.0s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $0.234 زمن الاستجابة (المتوسط) 18.0s
#200	GLM 4.7 Flash medium	Z.ai	2	4.7	$0.166	1/4	15.0s
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.166 زمن الاستجابة (المتوسط) 15.0s

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

حيل مضادة للذكاء الاصطناعي: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية