AI BENCHY
Metodologia benchmark-ului
Această pagină explică abordarea noastră de benchmarking la nivel înalt. Păstrăm private prompturile exacte și detaliile interne de evaluare pentru a proteja integritatea testelor.
Cum funcționează (nivel înalt)
- Teste private: nu publicăm conținutul exact al testelor, prompturile sau detaliile complete de evaluare.
- Rulări repetate: fiecare model este rulat de mai multe ori pentru a reflecta stabilitatea, nu o singură încercare norocoasă.
- Moduri de raționare: acolo unde este suportat, evaluăm modelele în mai multe configurații de raționare.
- Execuție prin OpenRouter: cererile benchmark sunt rutate prin OpenRouter.
- Fiabilitate în lumea reală: timeout-urile, indisponibilitatea și erorile API sunt contorizate ca încercări eșuate.
- Acoperire rapidă cu suită în evoluție: pentru că suita noastră este mai mică, putem testa rapid modele noi și putem adăuga sau elimina teste continuu.
- Semnal de inteligență generală: scorul nu este legat de o singură categorie. Este un indicator larg al unei întrebări practice: dacă întrebi AI-ul ceva, cât de probabil este să răspundă corect?
Publicăm metodologia la nivel general pentru transparență, păstrând private detaliile sensibile ale benchmark-ului.