AI BENCHY
قارن الرسوم البيانية المنهجية
❤️ Made by XCS
Your ad here

إخفاقات الفئات في AI BENCHY

تحليل البيانات واستخراجها
إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في تحليل البيانات واستخراجها، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: زمن الاستجابة (المتوسط) ↑.

النماذج المعروضة

11

إجمالي الإخفاقات

14

النموذج الأكثر تأثرًا

Mercury 2 1
الترتيب النموذج الشركة عدد إجابة خاطئة درجة الفئة اختبارات صحيحة زمن الاستجابة (المتوسط)
#51 Mercury 2 none Inception 1 5.5 1/2 667ms
#55 LFM2-24B-A2B none Liquid 2 10.0 0/2 714ms
#36 Mercury 2 medium Inception 1 5.5 1/2 1.11s
#48 Qwen3 Coder Next none Qwen 1 5.4 1/2 1.32s
#39 gpt-oss-120b medium OpenAI 1 5.5 1/2 1.98s
#49 GLM 4.7 Flash none Z.ai 1 5.4 1/2 4.82s
#43 MiniMax M2.5 medium Minimax 2 10.0 0/2 7.48s
#33 DeepSeek V3.2 none DeepSeek 1 5.4 1/2 9.42s
#34 GPT-5 Nano medium OpenAI 2 10.0 0/2 21.4s
#46 Kimi K2.5 none Moonshot AI 1 5.4 1/2 42.1s
#50 Qwen3 Coder Next medium Qwen 1 5.4 1/2 81.8s

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل متوسط الدرجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية