AI BENCHY

Metodología del benchmark

Esta página explica nuestro enfoque de benchmarking a alto nivel. Mantenemos privados los prompts exactos y los detalles internos de evaluación para proteger la integridad de las pruebas.

Cómo Funciona (alto nivel)

Pruebas privadas: no publicamos el contenido exacto de las pruebas, los prompts ni los detalles completos de calificación.
Ejecuciones repetidas: cada modelo se ejecuta varias veces para reflejar estabilidad, no un intento con suerte.
Modos de razonamiento: cuando es compatible, evaluamos los modelos en varias configuraciones de razonamiento.
Ejecución con OpenRouter: las solicitudes del benchmark se enrutan a través de OpenRouter.
Fiabilidad en el mundo real: los timeouts, caídas del servicio y errores de API cuentan como intentos fallidos.
Cobertura rápida con suite evolutiva: como nuestra suite es más pequeña, probamos nuevos modelos rápido y añadimos o retiramos pruebas de forma continua.
Señal de inteligencia general: la puntuación no está ligada a una sola categoría. Es un indicador amplio de una pregunta práctica: si le preguntas algo a la IA, qué probabilidad hay de que responda correctamente?

Publicamos la metodología en términos generales para transparencia, manteniendo privados los detalles sensibles del benchmark.