AI BENCHY
Your ad here

إخفاقات الفئات في AI BENCHY

حيل مضادة للذكاء الاصطناعي: إجابة خاطئة

حيل مضادة للذكاء الاصطناعي
إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في حيل مضادة للذكاء الاصطناعي، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: اختبارات صحيحة ↑.

النماذج المعروضة

15

إجمالي الإخفاقات

165

النموذج الأكثر تأثرًا

Qwen3.5-Flash 4
الترتيب النموذج الشركة عدد إجابة خاطئة درجة الفئة اختبارات صحيحة زمن الاستجابة (المتوسط)
#59 Qwen3.5-Flash none Qwen 4 3.5 0/4 1.32s
#61 Seed-2.0-Lite none Bytedance Seed 4 3.0 0/4 2.43s
#62 Gemini 2.5 Flash none Google 4 3.0 0/4 582ms
#63 Qwen3.5-35B-A3B none Qwen 4 3.4 0/4 1.43s
#64 DeepSeek V3.2 none DeepSeek 2 3.2 0/4 7.63s
#65 MiMo-V2-Pro none Xiaomi 4 3.5 0/4 1.80s
#66 GPT-5.4 none OpenAI 4 3.2 0/4 1.21s
#72 Hunter Alpha none OpenRouter 4 3.5 0/4 3.81s
#75 GLM 5.1 none Z.ai 4 4.0 0/4 2.11s
#76 Kimi K2.5 none Moonshot AI 4 3.6 0/4 6.24s
#77 GLM 5 Turbo none Z.ai 4 3.0 0/4 2.84s
#78 Trinity Large Preview none Arcee AI 4 3.0 0/4 3.02s
#79 Grok 4.20 Beta none X AI 4 4.0 0/4 597ms
#83 Mistral Small 4 none Mistral 4 3.4 0/4 395ms
#86 GPT-5.4 Mini none OpenAI 4 3.1 0/4 929ms

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية