فئة AI BENCHY
ترتيب معلومات عامة
اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في معلومات عامة، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: زمن الاستجابة (المتوسط) ↓.
أسباب الفشل
| الترتيب | النموذج | الشركة | درجة معلومات عامة | النتيجة | اختبارات صحيحة | زمن الاستجابة (المتوسط) |
|---|---|---|---|---|---|---|
| #77 | Grok 4.1 Fast medium | X AI | 3.0 | 6.5 | 0/1 | 25.5s |
| #123 | MiniMax M2.7 medium | Minimax | 3.0 | 5.1 | 0/1 | 22.8s |
| #83 | GPT-5 Nano medium | OpenAI | 3.0 | 6.2 | 0/1 | 20.1s |
| #104 | DeepSeek V3.2 none | DeepSeek | 3.0 | 5.7 | 0/1 | 17.2s |
| #84 | DeepSeek V4 Pro none | DeepSeek | 3.0 | 6.2 | 0/1 | 15.6s |
| #13 | GPT-5.3-Codex medium | OpenAI | 2.8 | 8.2 | 0/1 | 14.4s |
| #26 | GPT-5.4 medium | OpenAI | 3.0 | 7.9 | 0/1 | 14.0s |
| #136 | GLM 4.7 Flash medium | Z.ai | 3.0 | 4.5 | 0/1 | 11.1s |
| #6 | GPT-5.5 low | OpenAI | 3.0 | 8.9 | 0/1 | 10.1s |
| #67 | GPT-5 Mini medium | OpenAI | 3.0 | 6.8 | 0/1 | 9.99s |
| #122 | Nemotron 3 Super none | NVIDIA | 3.0 | 5.2 | 0/1 | 8.94s |
| #41 | GPT-5.2 Chat none | OpenAI | 3.0 | 7.6 | 0/1 | 6.89s |
| #2 | Gemini 3.1 Pro Preview medium | 10.0 | 9.6 | 1/1 | 6.27s | |
| #107 | Mistral Small 4 medium | Mistral | 3.0 | 5.5 | 0/1 | 5.92s |
| #1 | Gemini 3 Flash Preview medium | 10.0 | 10.0 | 1/1 | 5.50s |