إخفاقات الفئات في AI BENCHY
حيل مضادة للذكاء الاصطناعي: إجابة خاطئة
حيل مضادة للذكاء الاصطناعي
إجابة خاطئة
اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في حيل مضادة للذكاء الاصطناعي، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: عدد الإخفاقات ↑.
| الترتيب | النموذج | الشركة | عدد إجابة خاطئة | درجة الفئة | اختبارات صحيحة | زمن الاستجابة (المتوسط) |
|---|---|---|---|---|---|---|
| #3 | Claude Opus 4.7 medium | Anthropic | 1 | 8.3 | 3/4 | 1.85s |
| #4 | Claude Opus 4.7 none | Anthropic | 1 | 8.3 | 3/4 | 2.12s |
| #6 | Seed-2.0-Lite medium | Bytedance Seed | 1 | 8.3 | 3/4 | 18.0s |
| #7 | GPT-5.3-Codex medium | OpenAI | 1 | 8.7 | 3/4 | 4.16s |
| #8 | Qwen3.5 Plus 2026-02-15 medium | Qwen | 1 | 8.2 | 3/4 | 45.8s |
| #15 | Gemini 2.5 Flash medium | 1 | 8.4 | 3/4 | 6.30s | |
| #16 | GPT-5.4 medium | OpenAI | 1 | 8.3 | 3/4 | 4.11s |
| #21 | Gemini 3 Flash Preview none | 1 | 8.3 | 3/4 | 1.25s | |
| #22 | Gemini 3.1 Flash Lite Preview low | 1 | 8.3 | 3/4 | 2.12s | |
| #25 | Grok 4.20 Beta medium | X AI | 1 | 8.7 | 3/4 | 3.16s |
| #26 | Claude Sonnet 4.6 medium | Anthropic | 1 | 6.5 | 2/4 | 2.98s |
| #27 | DeepSeek V3.2 medium | DeepSeek | 1 | 8.4 | 3/4 | 30.7s |
| #28 | GPT-5.2 Chat none | OpenAI | 1 | 8.7 | 3/4 | 3.40s |
| #29 | Gemini 3.1 Flash Lite Preview none | 1 | 7.5 | 2/4 | 1.04s | |
| #31 | GLM 5V Turbo medium | Z.ai | 1 | 7.2 | 2/4 | 10.8s |