فئة AI BENCHY
ترتيب خاص بالمجال
اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في خاص بالمجال، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: اختبارات صحيحة ↑.
| الترتيب | النموذج | الشركة | درجة خاص بالمجال | النتيجة | اختبارات صحيحة | زمن الاستجابة (المتوسط) |
|---|---|---|---|---|---|---|
| #68 | Claude Opus 4.8 none | Anthropic | 5.3 | 7.0 | 1/3 | 1.66s |
| #70 | GPT-5.4 Nano medium | OpenAI | 5.9 | 7.0 | 1/3 | 38.2s |
| #82 | Hy3 preview high | Tencent | 5.3 | 6.6 | 1/3 | 109.0s |
| #86 | Grok 4.1 Fast medium | X AI | 5.8 | 6.5 | 1/3 | 121.8s |
| #89 | Hy3 preview low | Tencent | 5.9 | 6.4 | 1/3 | 40.4s |
| #92 | Laguna M.1 medium | Poolside | 5.3 | 6.4 | 1/3 | 24.1s |
| #94 | GPT-5 Nano medium | OpenAI | 5.2 | 6.3 | 1/3 | 204.0s |
| #95 | Qwen3.5 Plus 2026-02-15 none | Qwen | 5.3 | 6.3 | 1/3 | 1.17s |
| #96 | Ring-2.6-1T none | Inclusionai | 5.3 | 6.2 | 1/3 | 73.4s |
| #97 | Gemini 2.5 Flash none | 5.9 | 6.2 | 1/3 | 495ms | |
| #101 | Mimo V2 Omni none | Xiaomi | 5.3 | 6.0 | 1/3 | 2.10s |
| #104 | Nemotron 3 Ultra 550b A55b none | NVIDIA | 5.3 | 6.0 | 1/3 | 698ms |
| #109 | GLM 5V Turbo none | Z.ai | 5.3 | 5.8 | 1/3 | 2.09s |
| #111 | Owl Alpha medium | Openrouter | 5.3 | 5.7 | 1/3 | 8.58s |
| #113 | DeepSeek V4 Pro none | DeepSeek | 5.3 | 5.7 | 1/3 | 3.17s |