AI BENCHY
Metodología del benchmark
Esta página explica nuestro enfoque de benchmarking a alto nivel. Mantenemos privados los prompts exactos y los detalles internos de evaluación para proteger la integridad de las pruebas.
Cómo Funciona (alto nivel)
- Pruebas privadas: no publicamos el contenido exacto de las pruebas, los prompts ni los detalles completos de calificación.
- Ejecuciones repetidas: cada modelo se ejecuta varias veces para reflejar estabilidad, no un intento con suerte.
- Modos de razonamiento: cuando es compatible, evaluamos los modelos en varias configuraciones de razonamiento.
- Ejecución con OpenRouter: las solicitudes del benchmark se enrutan a través de OpenRouter.
- Fiabilidad en el mundo real: los timeouts, caídas del servicio y errores de API cuentan como intentos fallidos.
- Cobertura rápida con suite evolutiva: como nuestra suite es más pequeña, probamos nuevos modelos rápido y añadimos o retiramos pruebas de forma continua.
- Señal de inteligencia general: la puntuación no está ligada a una sola categoría. Es un indicador amplio de una pregunta práctica: si le preguntas algo a la IA, qué probabilidad hay de que responda correctamente?
Publicamos la metodología en términos generales para transparencia, manteniendo privados los detalles sensibles del benchmark.