AI BENCHY

Metodología del benchmark

Esta página explica nuestro enfoque de benchmarking a alto nivel. Mantenemos privados los prompts exactos y los detalles internos de evaluación para proteger la integridad de las pruebas.

Las pruebas

Las preguntas se eligen en su mayoría de forma bastante aleatoria, entre tareas y dominios distintos. Estadísticamente, un modelo mejor debería rendir, en promedio, mejor que uno más débil en una tarea aleatoria y no seleccionada a medida. Tengo experiencia en programación competitiva, así que pensar en pruebas y casos límite me sale de forma natural.

Esto no es ningún valor estandarizado de "CI". La puntuación no tiene unidad; es solo un valor arbitrario que muestra lo bien que lo hace un modelo en toda la suite de pruebas (respuestas correctas + consistencia). No estoy eligiendo modelos a dedo ni modificando pruebas para acomodar a ningún modelo. Cuando se me ocurre una prueba nueva, la añado, vuelvo a probar todos los modelos y recalculo las puntuaciones.

Las preguntas suelen partir de ideas simples del tipo: "Me pregunto si los modelos lo hacen bien cuando se les pide hacer X, Y o Z". Por ejemplo: "Responde con los dos números naturales iguales, a y b, que al sumarse dan un total de 2. Responde exactamente con este formato: a,b". Algunas AIs pueden dar la respuesta incorrecta, por ejemplo "2,2". Otras pueden no respetar el requisito de que los números sean iguales, por ejemplo "0,2". Otras pueden ignorar el formato de salida, por ejemplo "The answer is a = 1 and b = 1". Y otras pueden simplemente responder correctamente con "1,1".

Algunas pruebas son más complejas que esta, pero se entiende la idea. Esto no favorece a ningún modelo concreto, y estas preguntas en general son muy fáciles para los humanos.

Cristian

Cómo Funciona (alto nivel)

Pruebas privadas: no publicamos el contenido exacto de las pruebas, los prompts ni los detalles completos de calificación.
Ejecuciones repetidas: cada modelo se ejecuta varias veces para reflejar estabilidad, no un intento con suerte.
Modos de razonamiento: cuando es compatible, evaluamos los modelos en varias configuraciones de razonamiento.
Ejecución con OpenRouter: las solicitudes del benchmark se enrutan a través de OpenRouter.
Fiabilidad en el mundo real: los timeouts, caídas del servicio y errores de API cuentan como intentos fallidos.
Cobertura rápida con suite evolutiva: como nuestra suite es más pequeña, probamos nuevos modelos rápido y añadimos o retiramos pruebas de forma continua.
Señal de inteligencia general: la puntuación no está ligada a una sola categoría. Es un indicador amplio de una pregunta práctica: si le preguntas algo a la IA, qué probabilidad hay de que responda correctamente?

Publicamos la metodología en términos generales para transparencia, manteniendo privados los detalles sensibles del benchmark.