ترتيب حيل مضادة للذكاء الاصطناعي x خطأ API

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور خطأ API في حيل مضادة للذكاء الاصطناعي، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: اختبارات صحيحة ↓.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

Inkling 1

أسباب الفشل

إجابة خاطئة293 لم يتبع التعليمات33 تنسيق إضافي20 خطأ API14 انتهت المهلة4 لا توجد إجابة4

الفئات

البرمجة45 مجمّع26 استدعاء الأدوات17 تحليل البيانات واستخراجها14 حيل مضادة للذكاء الاصطناعي14 معلومات عامة13 الذكاء العام12 حل الألغاز12 خاص بالمجال7 اتباع التعليمات1

13/13

الترتيب	النموذج	الشركة	عدد خطأ API	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#32	Inkling medium	Thinkingmachines	1	8.7	$0.391	3/4	6.49s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $0.391 زمن الاستجابة (المتوسط) 6.49s
#76	DeepSeek V3.2 medium	DeepSeek	1	8.2	$0.078	3/4	24.2s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $0.078 زمن الاستجابة (المتوسط) 24.2s
#153	Hy3 preview low	Tencent	1	8.3	$0.015	3/4	9.32s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $0.015 زمن الاستجابة (المتوسط) 9.32s
#175	Qwen3.6 Plus Preview medium	Qwen	1	8.3	$0.000	3/4	11.7s
إجمالي الاختبارات 4 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 11.7s
#135	Hy3 preview high	Tencent	2	6.4	$0.048	2/4	15.1s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.048 زمن الاستجابة (المتوسط) 15.1s
#144	KAT-Coder-Air V2.5 high	Kwaipilot	1	6.9	$0.077	2/4	2.49s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.077 زمن الاستجابة (المتوسط) 2.49s
#186	Laguna M.1 medium	Poolside	1	6.5	$0.033	2/4	4.87s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.033 زمن الاستجابة (المتوسط) 4.87s
#198	Laguna Xs.2 medium	Poolside	1	6.9	$0.015	2/4	2.68s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.015 زمن الاستجابة (المتوسط) 2.68s
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	6.4	$0.000	2/4	1.20s
إجمالي الاختبارات 4 الاختبارات الخاطئة 2 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 1.20s
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1	4.8	$0.000	1/4	584ms
إجمالي الاختبارات 4 الاختبارات الخاطئة 3 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 584ms
#173	DeepSeek V3.2 none	DeepSeek	1	3.2	$0.054	0/4	9.35s
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.054 زمن الاستجابة (المتوسط) 9.35s
#192	Laguna M.1 none	Poolside	1	3.4	$0.009	0/4	705ms
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.009 زمن الاستجابة (المتوسط) 705ms
#205	Laguna Xs.2 none	Poolside	1	3.0	$0.004	0/4	534ms
إجمالي الاختبارات 4 الاختبارات الخاطئة 4 إجمالي التكلفة $0.004 زمن الاستجابة (المتوسط) 534ms

تصفية النماذج

أفضل النماذج حسب عدد خطأ API

عدد خطأ API مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

حيل مضادة للذكاء الاصطناعي: خطأ API

تصفية النماذج

أفضل النماذج حسب عدد خطأ API

عدد خطأ API مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية