AI BENCHY
Comparar Gráficos Metodología
❤️ Made by XCS
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY

Metodología del benchmark

Esta página explica nuestro enfoque de benchmarking a alto nivel. Mantenemos privados los prompts exactos y los detalles internos de evaluación para proteger la integridad de las pruebas.

Cómo Funciona (alto nivel)

  • Pruebas privadas: no publicamos el contenido exacto de las pruebas, los prompts ni los detalles completos de calificación.
  • Ejecuciones repetidas: cada modelo se ejecuta varias veces para reflejar estabilidad, no un intento con suerte.
  • Modos de razonamiento: cuando es compatible, evaluamos los modelos en varias configuraciones de razonamiento.
  • Ejecución con OpenRouter: las solicitudes del benchmark se enrutan a través de OpenRouter.
  • Fiabilidad en el mundo real: los timeouts, caídas del servicio y errores de API cuentan como intentos fallidos.
  • Cobertura rápida con suite evolutiva: como nuestra suite es más pequeña, probamos nuevos modelos rápido y añadimos o retiramos pruebas de forma continua.
  • Señal de inteligencia general: la puntuación no está ligada a una sola categoría. Es un indicador amplio de una pregunta práctica: si le preguntas algo a la IA, qué probabilidad hay de que responda correctamente?

Publicamos la metodología en términos generales para transparencia, manteniendo privados los detalles sensibles del benchmark.