AI BENCHY
Advertise here

إخفاقات الفئات في AI BENCHY

حيل مضادة للذكاء الاصطناعي: إجابة خاطئة

حيل مضادة للذكاء الاصطناعي
إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في حيل مضادة للذكاء الاصطناعي، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: زمن الاستجابة (المتوسط) ↓.

النماذج المعروضة

15

إجمالي الإخفاقات

245

النموذج الأكثر تأثرًا

Seed-2.0-Mini 1
الترتيب النموذج الشركة عدد إجابة خاطئة درجة الفئة اختبارات صحيحة زمن الاستجابة (المتوسط)
#73 Seed-2.0-Mini medium Bytedance Seed 1 6.6 2/4 74.7s
#76 Kimi K2.5 medium Moonshot AI 1 7.3 2/4 51.4s
#25 Qwen3.5 Plus 2026-02-15 medium Qwen 1 8.2 3/4 45.8s
#130 MiniMax M2.7 medium Minimax 1 7.9 2/4 40.3s
#53 Gemini 3.1 Flash Lite high Google 1 8.7 3/4 37.2s
#161 Qwen3.5-9B medium Qwen 1 5.1 1/4 34.4s
#126 gpt-oss-120b none OpenAI 1 6.5 2/4 32.8s
#31 DeepSeek V4 Flash high DeepSeek 1 8.3 3/4 28.5s
#94 GPT-5 Nano medium OpenAI 2 6.5 2/4 25.5s
#139 DeepSeek V4 Flash none DeepSeek 4 3.0 0/4 20.2s
#19 Seed-2.0-Lite medium Bytedance Seed 1 8.3 3/4 18.0s
#103 DeepSeek V4 Pro high DeepSeek 1 6.4 2/4 16.5s
#158 GLM 4.7 Flash medium Z.ai 2 4.7 1/4 15.0s
#67 MiniMax M3 medium Minimax 2 5.5 1/4 14.9s
#113 DeepSeek V4 Pro none DeepSeek 3 3.5 0/4 14.0s

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية