ترتيب النماذج لفئة حيل مضادة للذكاء الاصطناعي

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في حيل مضادة للذكاء الاصطناعي، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: المقياس ↑.

النماذج المعروضة

متوسط درجة حيل مضادة للذكاء الاصطناعي

7.2

أفضل نموذج

LFM2-24B-A2B 2.5

أسباب الفشل

مع سبب الفشل إجابة خاطئة293 مع سبب الفشل لم يتبع التعليمات33 مع سبب الفشل تنسيق إضافي20 مع سبب الفشل خطأ API14 مع سبب الفشل انتهت المهلة4 مع سبب الفشل لا توجد إجابة4

216/216

الترتيب	النموذج	الشركة	درجة حيل مضادة للذكاء الاصطناعي	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#91	GPT-5.5 none	OpenAI	6.9	6.9	$0.544	2/4	1.31s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.544 زمن الاستجابة (المتوسط) 1.31s
#204	Laguna Xs.2 medium	Poolside	6.9	4.1	$0.015	2/4	2.68s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.015 زمن الاستجابة (المتوسط) 2.68s
#72	Kimi K2.6 medium	Moonshot AI	7.0	7.2	$1.036	2/4	11.6s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $1.036 زمن الاستجابة (المتوسط) 11.6s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	7.0	7.2	$0.482	2/4	3.17s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.482 زمن الاستجابة (المتوسط) 3.17s
#29	GPT-5 Mini medium	OpenAI	7.1	8.1	$0.237	2/4	13.9s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.237 زمن الاستجابة (المتوسط) 13.9s
#98	GLM 5V Turbo medium	Z.ai	7.2	6.7	$0.457	2/4	10.8s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.457 زمن الاستجابة (المتوسط) 10.8s
#111	Gemini 3.1 Flash Lite low	Google	7.3	6.5	$0.621	2/4	1.84s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.621 زمن الاستجابة (المتوسط) 1.84s
#56	Kimi K2.7 Code medium	Moonshot AI	7.3	7.5	$0.740	2/4	11.6s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.740 زمن الاستجابة (المتوسط) 11.6s
#81	Kimi K2.5 medium	Moonshot AI	7.3	7.0	$0.600	2/4	51.4s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.600 زمن الاستجابة (المتوسط) 51.4s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	7.3	5.4	$0.041	2/4	3.50s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.041 زمن الاستجابة (المتوسط) 3.50s
#190	Hunter Alpha medium	OpenRouter	7.3	4.7	$0.000	2/4	4.75s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 4.75s
#30	Muse Spark 1.1 high	Meta	7.5	8.1	$1.694	2/4	8.60s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $1.694 زمن الاستجابة (المتوسط) 8.60s
#112	Gemini 3.1 Flash Lite Preview none	Google	7.5	6.4	$0.052	2/4	1.04s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.052 زمن الاستجابة (المتوسط) 1.04s
#169	Gemini 3.1 Flash Lite Preview high	Google	7.5	5.3	$2.310	3/3	43.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 0 إجمالي التكلفة $2.310 زمن الاستجابة (المتوسط) 43.9s
#128	Gemini 3.1 Flash Lite none	Google	7.5	6.1	$0.046	2/4	1.07s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.046 زمن الاستجابة (المتوسط) 1.07s

ترتيب حيل مضادة للذكاء الاصطناعي

تصفية النماذج

أفضل النماذج حسب درجة حيل مضادة للذكاء الاصطناعي

درجة حيل مضادة للذكاء الاصطناعي مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)