AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

Categoría AI BENCHY

Ranking de Resolución de acertijos

Mira qué modelos de IA rinden mejor en Resolución de acertijos, cuáles se mantienen fiables y dónde aparecen las mayores diferencias. Ordenar por: Tiempo de respuesta (promedio) ↑.

Modelos mostrados

15

Promedio de Puntuación de Resolución de acertijos

6.4

Mejor modelo

Grok 4.20 5.3
Rango Modelo Empresa Puntuación de Resolución de acertijos Puntuación Pruebas correctas Tiempo de respuesta (promedio)
#82 Grok 4.20 none X AI 5.3 5.2 1/3 487ms
#91 Mercury 2 none Inception 3.1 4.8 0/3 533ms
#79 Grok 4.20 Beta none X AI 5.9 5.3 1/3 541ms
#62 Gemini 2.5 Flash none Google 5.7 6.2 1/3 576ms
#83 Mistral Small 4 none Mistral 3.1 5.2 0/3 589ms
#90 Qwen3.5-9B none Qwen 3.2 4.8 0/3 683ms
#60 Gemma 4 26B A4B none Google 5.7 6.2 1/3 739ms
#85 Elephant none Openrouter 3.3 5.2 0/3 849ms
#86 GPT-5.4 Mini none OpenAI 5.4 5.1 1/3 860ms
#81 Elephant medium Openrouter 3.7 5.2 0/3 867ms
#54 Mercury 2 medium Inception 3.9 6.5 0/3 934ms
#29 Gemini 3.1 Flash Lite Preview none Google 10.0 7.9 3/3 972ms
#70 Qwen3.5-122B-A10B none Qwen 5.4 5.7 1/3 982ms
#74 GLM 4.7 Flash none Z.ai 4.4 5.6 0/3 1.00s
#21 Gemini 3 Flash Preview none Google 7.7 8.1 2/3 1.06s

Mejores modelos por Puntuación de Resolución de acertijos

Puntuación de Resolución de acertijos vs costo total

Mejores modelos por Tiempo de respuesta (promedio)