إخفاقات الفئات في AI BENCHY
حيل مضادة للذكاء الاصطناعي: إجابة خاطئة
حيل مضادة للذكاء الاصطناعي
إجابة خاطئة
اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في حيل مضادة للذكاء الاصطناعي، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: زمن الاستجابة (المتوسط) ↑.
| الترتيب | النموذج | الشركة | عدد إجابة خاطئة | درجة الفئة | اختبارات صحيحة | زمن الاستجابة (المتوسط) |
|---|---|---|---|---|---|---|
| #83 | Mistral Small 4 none | Mistral | 4 | 3.4 | 0/4 | 395ms |
| #98 | LFM2-24B-A2B none | Liquid | 3 | 3.3 | 0/3 | 471ms |
| #91 | Mercury 2 none | Inception | 4 | 3.0 | 0/4 | 483ms |
| #82 | Grok 4.20 none | X AI | 3 | 4.8 | 1/4 | 501ms |
| #62 | Gemini 2.5 Flash none | 4 | 3.0 | 0/4 | 582ms | |
| #79 | Grok 4.20 Beta none | X AI | 4 | 4.0 | 0/4 | 597ms |
| #67 | Qwen3.5-27B none | Qwen | 3 | 4.8 | 1/4 | 788ms |
| #86 | GPT-5.4 Mini none | OpenAI | 4 | 3.1 | 0/4 | 929ms |
| #85 | Elephant none | Openrouter | 1 | 6.6 | 2/4 | 963ms |
| #29 | Gemini 3.1 Flash Lite Preview none | 1 | 7.5 | 2/4 | 1.04s | |
| #95 | Grok 4.1 Fast none | X AI | 3 | 3.2 | 0/4 | 1.07s |
| #55 | MiMo-V2-Omni none | Xiaomi | 3 | 4.8 | 1/4 | 1.10s |
| #54 | Mercury 2 medium | Inception | 1 | 6.9 | 2/4 | 1.12s |
| #96 | GPT-5.4 Nano none | OpenAI | 4 | 3.5 | 0/4 | 1.18s |
| #81 | Elephant medium | Openrouter | 2 | 6.6 | 2/4 | 1.19s |