إخفاقات الفئات في AI BENCHY
حيل مضادة للذكاء الاصطناعي: إجابة خاطئة
حيل مضادة للذكاء الاصطناعي
إجابة خاطئة
اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في حيل مضادة للذكاء الاصطناعي، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: اختبارات صحيحة ↑.
| الترتيب | النموذج | الشركة | عدد إجابة خاطئة | درجة الفئة | اختبارات صحيحة | زمن الاستجابة (المتوسط) |
|---|---|---|---|---|---|---|
| #59 | Qwen3.5-Flash none | Qwen | 4 | 3.5 | 0/4 | 1.32s |
| #61 | Seed-2.0-Lite none | Bytedance Seed | 4 | 3.0 | 0/4 | 2.43s |
| #62 | Gemini 2.5 Flash none | 4 | 3.0 | 0/4 | 582ms | |
| #63 | Qwen3.5-35B-A3B none | Qwen | 4 | 3.4 | 0/4 | 1.43s |
| #64 | DeepSeek V3.2 none | DeepSeek | 2 | 3.2 | 0/4 | 7.63s |
| #65 | MiMo-V2-Pro none | Xiaomi | 4 | 3.5 | 0/4 | 1.80s |
| #66 | GPT-5.4 none | OpenAI | 4 | 3.2 | 0/4 | 1.21s |
| #72 | Hunter Alpha none | OpenRouter | 4 | 3.5 | 0/4 | 3.81s |
| #75 | GLM 5.1 none | Z.ai | 4 | 4.0 | 0/4 | 2.11s |
| #76 | Kimi K2.5 none | Moonshot AI | 4 | 3.6 | 0/4 | 6.24s |
| #77 | GLM 5 Turbo none | Z.ai | 4 | 3.0 | 0/4 | 2.84s |
| #78 | Trinity Large Preview none | Arcee AI | 4 | 3.0 | 0/4 | 3.02s |
| #79 | Grok 4.20 Beta none | X AI | 4 | 4.0 | 0/4 | 597ms |
| #83 | Mistral Small 4 none | Mistral | 4 | 3.4 | 0/4 | 395ms |
| #86 | GPT-5.4 Mini none | OpenAI | 4 | 3.1 | 0/4 | 929ms |