ترتيب حيل مضادة للذكاء الاصطناعي x إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في حيل مضادة للذكاء الاصطناعي، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: اختبارات صحيحة ↓.

النماذج المعروضة

إجمالي الإخفاقات

293

النموذج الأكثر تأثرًا

GPT-5.6 Sol 1

أسباب الفشل

إجابة خاطئة293 لم يتبع التعليمات33 تنسيق إضافي20 خطأ API14 انتهت المهلة4 لا توجد إجابة4

الفئات

خاص بالمجال412 حيل مضادة للذكاء الاصطناعي293 البرمجة252 حل الألغاز201 معلومات عامة168 مجمّع68 اتباع التعليمات61 الذكاء العام59 تحليل البيانات واستخراجها41 استدعاء الأدوات3

140/140

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#3	GPT-5.6 Sol low	OpenAI	1	8.3	$0.971	3/4	2.60s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $0.971 زمن الاستجابة (المتوسط) 2.60s
#5	GPT-5.6 Sol high	OpenAI	1	8.7	$1.234	3/4	3.39s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $1.234 زمن الاستجابة (المتوسط) 3.39s
#13	GPT-5.3-Codex medium	OpenAI	1	8.7	$0.920	3/4	4.16s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $0.920 زمن الاستجابة (المتوسط) 4.16s
#15	Claude Opus 4.7 medium	Anthropic	1	8.3	$1.477	3/4	1.85s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $1.477 زمن الاستجابة (المتوسط) 1.85s
#18	GPT-5.4 medium	OpenAI	1	8.3	$1.533	3/4	4.11s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $1.533 زمن الاستجابة (المتوسط) 4.11s
#25	Gemini 2.5 Flash medium	Google	1	8.4	$0.643	3/4	6.30s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $0.643 زمن الاستجابة (المتوسط) 6.30s
#30	GPT-5.2 Chat none	OpenAI	1	8.7	$0.604	3/4	3.40s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $0.604 زمن الاستجابة (المتوسط) 3.40s
#34	GPT-5.6 Terra high	OpenAI	1	8.3	$1.055	3/4	2.54s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $1.055 زمن الاستجابة (المتوسط) 2.54s
#35	Seed-2.0-Lite medium	Bytedance Seed	1	8.3	$0.234	3/4	18.0s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $0.234 زمن الاستجابة (المتوسط) 18.0s
#39	GPT-5.6 Terra medium	OpenAI	1	8.3	$0.676	3/4	2.22s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $0.676 زمن الاستجابة (المتوسط) 2.22s
#44	GPT-5.6 Luna high	OpenAI	1	8.3	$1.017	3/4	2.99s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $1.017 زمن الاستجابة (المتوسط) 2.99s
#45	DeepSeek V4 Flash high	DeepSeek	1	8.3	$0.042	3/4	28.5s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $0.042 زمن الاستجابة (المتوسط) 28.5s
#50	GPT-5.6 Luna medium	OpenAI	1	8.3	$0.352	3/4	2.52s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $0.352 زمن الاستجابة (المتوسط) 2.52s
#53	GPT-5.4 Nano medium	OpenAI	1	8.3	$0.138	3/4	4.52s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $0.138 زمن الاستجابة (المتوسط) 4.52s
#55	GPT-5.6 Terra low	OpenAI	1	8.3	$0.519	3/4	2.36s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $0.519 زمن الاستجابة (المتوسط) 2.36s

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

حيل مضادة للذكاء الاصطناعي: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية