إخفاقات الفئات في AI BENCHY
حيل مضادة للذكاء الاصطناعي: إجابة خاطئة
حيل مضادة للذكاء الاصطناعي
إجابة خاطئة
اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في حيل مضادة للذكاء الاصطناعي، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: اختبارات صحيحة ↓.
| الترتيب | النموذج | الشركة | عدد إجابة خاطئة | درجة الفئة | اختبارات صحيحة | زمن الاستجابة (المتوسط) |
|---|---|---|---|---|---|---|
| #3 | Claude Opus 4.7 medium | Anthropic | 1 | 8.3 | 3/4 | 1.85s |
| #4 | Claude Opus 4.7 none | Anthropic | 1 | 8.3 | 3/4 | 2.12s |
| #6 | Seed-2.0-Lite medium | Bytedance Seed | 1 | 8.3 | 3/4 | 18.0s |
| #7 | GPT-5.3-Codex medium | OpenAI | 1 | 8.7 | 3/4 | 4.16s |
| #8 | Qwen3.5 Plus 2026-02-15 medium | Qwen | 1 | 8.2 | 3/4 | 45.8s |
| #15 | Gemini 2.5 Flash medium | 1 | 8.4 | 3/4 | 6.30s | |
| #16 | GPT-5.4 medium | OpenAI | 1 | 8.3 | 3/4 | 4.11s |
| #21 | Gemini 3 Flash Preview none | 1 | 8.3 | 3/4 | 1.25s | |
| #22 | Gemini 3.1 Flash Lite Preview low | 1 | 8.3 | 3/4 | 2.12s | |
| #25 | Grok 4.20 Beta medium | X AI | 1 | 8.7 | 3/4 | 3.16s |
| #27 | DeepSeek V3.2 medium | DeepSeek | 1 | 8.4 | 3/4 | 30.7s |
| #28 | GPT-5.2 Chat none | OpenAI | 1 | 8.7 | 3/4 | 3.40s |
| #38 | GPT-5.4 Nano medium | OpenAI | 1 | 8.3 | 3/4 | 4.52s |
| #44 | GPT-5.4 Mini medium | OpenAI | 1 | 8.6 | 3/4 | 4.05s |
| #47 | Grok 4.20 medium | X AI | 1 | 8.2 | 3/4 | 3.36s |