AI BENCHY

Metodologia benchmark-ului

Această pagină explică abordarea noastră de benchmarking la nivel înalt. Păstrăm private prompturile exacte și detaliile interne de evaluare pentru a proteja integritatea testelor.

Cum funcționează (nivel înalt)

Teste private: nu publicăm conținutul exact al testelor, prompturile sau detaliile complete de evaluare.
Rulări repetate: fiecare model este rulat de mai multe ori pentru a reflecta stabilitatea, nu o singură încercare norocoasă.
Moduri de raționare: acolo unde este suportat, evaluăm modelele în mai multe configurații de raționare.
Execuție prin OpenRouter: cererile benchmark sunt rutate prin OpenRouter.
Fiabilitate în lumea reală: timeout-urile, indisponibilitatea și erorile API sunt contorizate ca încercări eșuate.
Acoperire rapidă cu suită în evoluție: pentru că suita noastră este mai mică, putem testa rapid modele noi și putem adăuga sau elimina teste continuu.
Semnal de inteligență generală: scorul nu este legat de o singură categorie. Este un indicator larg al unei întrebări practice: dacă întrebi AI-ul ceva, cât de probabil este să răspundă corect?

Publicăm metodologia la nivel general pentru transparență, păstrând private detaliile sensibile ale benchmark-ului.