AI BENCHY
Compară Grafice Metodologie
❤️ Made by XCS
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY

Metodologia benchmark-ului

Această pagină explică abordarea noastră de benchmarking la nivel înalt. Păstrăm private prompturile exacte și detaliile interne de evaluare pentru a proteja integritatea testelor.

Cum funcționează (nivel înalt)

  • Teste private: nu publicăm conținutul exact al testelor, prompturile sau detaliile complete de evaluare.
  • Rulări repetate: fiecare model este rulat de mai multe ori pentru a reflecta stabilitatea, nu o singură încercare norocoasă.
  • Moduri de raționare: acolo unde este suportat, evaluăm modelele în mai multe configurații de raționare.
  • Execuție prin OpenRouter: cererile benchmark sunt rutate prin OpenRouter.
  • Fiabilitate în lumea reală: timeout-urile, indisponibilitatea și erorile API sunt contorizate ca încercări eșuate.
  • Acoperire rapidă cu suită în evoluție: pentru că suita noastră este mai mică, putem testa rapid modele noi și putem adăuga sau elimina teste continuu.
  • Semnal de inteligență generală: scorul nu este legat de o singură categorie. Este un indicator larg al unei întrebări practice: dacă întrebi AI-ul ceva, cât de probabil este să răspundă corect?

Publicăm metodologia la nivel general pentru transparență, păstrând private detaliile sensibile ale benchmark-ului.