Fallos por categoría de AI BENCHY
Resolución de acertijos: Error de API
Resolución de acertijos
Error de API
Mira qué modelos de IA tienen más probabilidades de caer en Error de API dentro de Resolución de acertijos, para detectar puntos débiles más rápido. Ordenar por: Pruebas correctas ↑.
Motivos de fallo
| Rango | Modelo | Empresa | Cantidad de Error de API | Puntuación de categoría | Pruebas correctas | Tiempo de respuesta (promedio) |
|---|---|---|---|---|---|---|
| #145 | Laguna M.1 none | Poolside | 1 | 3.0 | 0/3 | 891ms |
| #149 | Nemotron 3 Nano Omni 30b A3b Reasoning medium | NVIDIA | 1 | 2.9 | 0/3 | 1.40s |
| #160 | LFM2-24B-A2B none | Liquid | 1 | 3.8 | 0/3 | 1.78s |
| #162 | Nemotron 3 Nano Omni 30b A3b Reasoning none | NVIDIA | 1 | 3.0 | 0/3 | 532ms |
| #89 | Hy3 preview low | Tencent | 1 | 5.3 | 1/3 | 7.51s |
| #92 | Laguna M.1 medium | Poolside | 1 | 5.3 | 1/3 | 10.2s |
| #93 | Qwen3.6 Plus Preview medium | Qwen | 2 | 5.3 | 1/3 | 7.52s |
| #103 | DeepSeek V4 Pro high | DeepSeek | 1 | 5.9 | 1/3 | 34.8s |
| #107 | Laguna Xs.2 medium | Poolside | 1 | 5.3 | 1/3 | 1.93s |
| #146 | Laguna Xs.2 none | Poolside | 1 | 5.3 | 1/3 | 650ms |
| #82 | Hy3 preview high | Tencent | 1 | 7.7 | 2/3 | 27.9s |
| #133 | DeepSeek V3.2 none | DeepSeek | 1 | 7.6 | 2/3 | 6.91s |