AI BENCHY
Your ad here

إخفاقات الفئات في AI BENCHY

حيل مضادة للذكاء الاصطناعي: إجابة خاطئة

حيل مضادة للذكاء الاصطناعي
إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في حيل مضادة للذكاء الاصطناعي، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: عدد الإخفاقات ↑.

النماذج المعروضة

15

إجمالي الإخفاقات

165

النموذج الأكثر تأثرًا

Claude Opus 4.7 1
الترتيب النموذج الشركة عدد إجابة خاطئة درجة الفئة اختبارات صحيحة زمن الاستجابة (المتوسط)
#3 Claude Opus 4.7 medium Anthropic 1 8.3 3/4 1.85s
#4 Claude Opus 4.7 none Anthropic 1 8.3 3/4 2.12s
#6 Seed-2.0-Lite medium Bytedance Seed 1 8.3 3/4 18.0s
#7 GPT-5.3-Codex medium OpenAI 1 8.7 3/4 4.16s
#8 Qwen3.5 Plus 2026-02-15 medium Qwen 1 8.2 3/4 45.8s
#15 Gemini 2.5 Flash medium Google 1 8.4 3/4 6.30s
#16 GPT-5.4 medium OpenAI 1 8.3 3/4 4.11s
#21 Gemini 3 Flash Preview none Google 1 8.3 3/4 1.25s
#22 Gemini 3.1 Flash Lite Preview low Google 1 8.3 3/4 2.12s
#25 Grok 4.20 Beta medium X AI 1 8.7 3/4 3.16s
#26 Claude Sonnet 4.6 medium Anthropic 1 6.5 2/4 2.98s
#27 DeepSeek V3.2 medium DeepSeek 1 8.4 3/4 30.7s
#28 GPT-5.2 Chat none OpenAI 1 8.7 3/4 3.40s
#29 Gemini 3.1 Flash Lite Preview none Google 1 7.5 2/4 1.04s
#31 GLM 5V Turbo medium Z.ai 1 7.2 2/4 10.8s

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية