إخفاقات الفئات في AI BENCHY
تحليل البيانات واستخراجها
إجابة خاطئة
تحليل البيانات واستخراجها
إجابة خاطئة
اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في تحليل البيانات واستخراجها، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: زمن الاستجابة (المتوسط) ↓.
أسباب الإخفاق المرتبطة
| الترتيب | النموذج | الشركة | عدد إجابة خاطئة | درجة الفئة | اختبارات صحيحة | زمن الاستجابة (المتوسط) |
|---|---|---|---|---|---|---|
| #50 | Qwen3 Coder Next medium | Qwen | 1 | 5.4 | 1/2 | 81.8s |
| #46 | Kimi K2.5 none | Moonshot AI | 1 | 5.4 | 1/2 | 42.1s |
| #34 | GPT-5 Nano medium | OpenAI | 2 | 10.0 | 0/2 | 21.4s |
| #33 | DeepSeek V3.2 none | DeepSeek | 1 | 5.4 | 1/2 | 9.42s |
| #43 | MiniMax M2.5 medium | Minimax | 2 | 10.0 | 0/2 | 7.48s |
| #49 | GLM 4.7 Flash none | Z.ai | 1 | 5.4 | 1/2 | 4.82s |
| #39 | gpt-oss-120b medium | OpenAI | 1 | 5.5 | 1/2 | 1.98s |
| #48 | Qwen3 Coder Next none | Qwen | 1 | 5.4 | 1/2 | 1.32s |
| #36 | Mercury 2 medium | Inception | 1 | 5.5 | 1/2 | 1.11s |
| #55 | LFM2-24B-A2B none | Liquid | 2 | 10.0 | 0/2 | 714ms |
| #51 | Mercury 2 none | Inception | 1 | 5.5 | 1/2 | 667ms |