AI BENCHY
Advertise here

إخفاقات الفئات في AI BENCHY

تحليل البيانات واستخراجها: إجابة خاطئة

تحليل البيانات واستخراجها
إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في تحليل البيانات واستخراجها، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

15

إجمالي الإخفاقات

35

النموذج الأكثر تأثرًا

GPT-5 Nano 2
الترتيب النموذج الشركة عدد إجابة خاطئة درجة الفئة اختبارات صحيحة زمن الاستجابة (المتوسط)
#100 Grok Build 0.1 none X AI 1 3.8 0/2 9.33s
#118 Qwen3.6 27B none Qwen 1 7.3 1/2 2.06s
#119 Cobuddy medium Baidu 1 6.3 1/2 17.4s
#122 GLM 4.7 Flash none Z.ai 1 7.3 1/2 4.82s
#130 MiniMax M2.7 medium Minimax 1 6.3 1/2 21.9s
#133 DeepSeek V3.2 none DeepSeek 1 6.3 1/2 9.42s
#135 Kimi K2.5 none Moonshot AI 1 7.3 1/2 42.1s
#136 Elephant Alpha medium Openrouter 1 6.5 1/2 979ms
#137 Elephant Alpha none Openrouter 1 6.5 1/2 1.04s
#138 Ling-2.6-flash none Inclusionai 1 6.5 1/2 8.48s
#140 Qwen3 Coder Next none Qwen 1 6.5 1/2 1.32s
#148 GPT-5.4 Nano none OpenAI 1 6.5 1/2 1.11s
#149 Nemotron 3 Nano Omni 30b A3b Reasoning medium NVIDIA 1 7.3 1/2 2.72s
#150 Qwen3 Coder Next medium Qwen 1 6.5 1/2 81.8s
#155 Mercury 2 none Inception 1 7.3 1/2 667ms

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية