Eșecuri pe categorii AI BENCHY
Specific domeniului: Răspuns greșit
Specific domeniului
Răspuns greșit
Vezi ce modele AI au cele mai mari șanse să întâmpine Răspuns greșit la Specific domeniului, ca să găsești mai repede punctele slabe. Sortează după: Timp de răspuns (mediu) ↓.
Motive de eșec
| Rang | Model | Companie | Număr de Răspuns greșit | Scor de categorie | Teste corecte | Timp de răspuns (mediu) |
|---|---|---|---|---|---|---|
| #129 | MiniMax M2.5 medium | Minimax | 2 | 2.9 | 0/3 | 237.3s |
| #103 | DeepSeek V4 Pro high | DeepSeek | 1 | 2.9 | 0/3 | 205.7s |
| #94 | GPT-5 Nano medium | OpenAI | 1 | 5.2 | 1/3 | 204.0s |
| #38 | Grok 4.3 medium | X AI | 2 | 5.3 | 1/3 | 181.7s |
| #158 | GLM 4.7 Flash medium | Z.ai | 2 | 3.5 | 0/3 | 174.6s |
| #62 | Step 3.5 Flash medium | Stepfun | 2 | 5.3 | 1/3 | 170.5s |
| #9 | GPT-5.5 medium | OpenAI | 2 | 5.3 | 1/3 | 164.1s |
| #47 | Grok Build 0.1 medium | X AI | 1 | 5.3 | 1/3 | 158.0s |
| #71 | Step 3.7 Flash high | Stepfun | 2 | 4.1 | 0/3 | 149.6s |
| #49 | Qwen3.5-Flash medium | Qwen | 1 | 5.3 | 1/3 | 146.5s |
| #53 | Gemini 3.1 Flash Lite high | 3 | 3.6 | 0/3 | 139.9s | |
| #76 | Kimi K2.5 medium | Moonshot AI | 2 | 3.5 | 0/3 | 137.3s |
| #119 | Cobuddy medium | Baidu | 3 | 2.9 | 0/3 | 128.2s |
| #12 | Gemini 3.1 Flash Lite Preview high | 2 | 5.3 | 1/3 | 127.6s | |
| #86 | Grok 4.1 Fast medium | X AI | 1 | 5.8 | 1/3 | 121.8s |