ترتيب النماذج لفئة حيل مضادة للذكاء الاصطناعي

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في حيل مضادة للذكاء الاصطناعي، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات.

النماذج المعروضة

متوسط درجة حيل مضادة للذكاء الاصطناعي

7.1

أفضل نموذج

Gemini 3 Flash Preview 10.0

أسباب الفشل

مع سبب الفشل إجابة خاطئة293 مع سبب الفشل لم يتبع التعليمات33 مع سبب الفشل تنسيق إضافي20 مع سبب الفشل خطأ API14 مع سبب الفشل انتهت المهلة4 مع سبب الفشل لا توجد إجابة4

210/210

الترتيب	النموذج	الشركة	درجة حيل مضادة للذكاء الاصطناعي	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#114	Qwen3.5-Flash medium	Qwen	10.0	6.2	$0.139	4/4	59.1s
إجمالي الاختبارات 4 الاختبارات الخاطئة 0 إجمالي التكلفة $0.139 زمن الاستجابة (المتوسط) 59.1s
#119	Qwen3.5-35B-A3B medium	Qwen	10.0	6.2	$0.837	4/4	21.1s
إجمالي الاختبارات 4 الاختبارات الخاطئة 0 إجمالي التكلفة $0.837 زمن الاستجابة (المتوسط) 21.1s
#130	Step 3.5 Flash medium	Stepfun	10.0	6.0	$0.108	4/4	40.6s
إجمالي الاختبارات 4 الاختبارات الخاطئة 0 إجمالي التكلفة $0.108 زمن الاستجابة (المتوسط) 40.6s
#133	Gemini 3 PRO Preview medium	Google	10.0	6.0	$0.385	4/4	15.0s
إجمالي الاختبارات 4 الاختبارات الخاطئة 0 إجمالي التكلفة $0.385 زمن الاستجابة (المتوسط) 15.0s
#134	Mimo V2 Omni medium	Xiaomi	10.0	5.9	$0.683	4/4	2.75s
إجمالي الاختبارات 4 الاختبارات الخاطئة 0 إجمالي التكلفة $0.683 زمن الاستجابة (المتوسط) 2.75s
#209	Step 3.5 Flash none	Stepfun	10.0	2.3	$0.020	4/4	35.0s
إجمالي الاختبارات 4 الاختبارات الخاطئة 0 إجمالي التكلفة $0.020 زمن الاستجابة (المتوسط) 35.0s
#179	Ring-2.6-1T none	Inclusionai	9.2	4.8	$0.026	3/4	43.3s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $0.026 زمن الاستجابة (المتوسط) 43.3s
#65	Gemini 3.1 Flash Lite medium	Google	9.1	7.3	$0.117	3/4	2.39s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $0.117 زمن الاستجابة (المتوسط) 2.39s
#64	Gemini 3.1 Flash Lite Preview medium	Google	9.1	7.3	$0.115	3/4	2.33s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $0.115 زمن الاستجابة (المتوسط) 2.33s
#97	LongCat 2.0 high	Meituan	8.9	6.6	$0.469	3/4	7.76s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $0.469 زمن الاستجابة (المتوسط) 7.76s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	8.7	5.6	$0.048	3/4	3.79s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $0.048 زمن الاستجابة (المتوسط) 3.79s
#5	GPT-5.6 Sol high	OpenAI	8.7	9.4	$1.234	3/4	3.39s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $1.234 زمن الاستجابة (المتوسط) 3.39s
#13	GPT-5.3-Codex medium	OpenAI	8.7	8.9	$0.920	3/4	4.16s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $0.920 زمن الاستجابة (المتوسط) 4.16s
#29	Step 3.7 Flash medium	Stepfun	8.7	8.0	$0.515	3/4	9.65s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $0.515 زمن الاستجابة (المتوسط) 9.65s
#30	GPT-5.2 Chat none	OpenAI	8.7	8.0	$0.604	3/4	3.40s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $0.604 زمن الاستجابة (المتوسط) 3.40s

ترتيب حيل مضادة للذكاء الاصطناعي

تصفية النماذج

أفضل النماذج حسب درجة حيل مضادة للذكاء الاصطناعي

درجة حيل مضادة للذكاء الاصطناعي مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)