AI BENCHY

Metodologia benchmark-ului

Această pagină explică abordarea noastră de benchmarking la nivel înalt. Păstrăm private prompturile exacte și detaliile interne de evaluare pentru a proteja integritatea testelor.

Testele

Întrebările sunt alese în mare parte destul de aleator, din sarcini și domenii diferite. Statistic vorbind, un model mai bun ar trebui, în medie, să se descurce mai bine decât un model mai slab la o sarcină aleatoare, nealeasă preferențial. Am un background în programare competitivă, așa că să mă gândesc la teste și cazuri limită îmi vine natural.

Acesta nu este un scor standardizat de tip "IQ". Scorul nu are nicio unitate; este doar o valoare arbitrară care arată cât de bine se descurcă un model pe întreaga suită de teste (răspunsuri corecte + consistență). Nu aleg modelele preferențial și nu modific testele ca să avantajez vreun model. Când mă gândesc la un test nou, îl adaug, retestez toate modelele și recalculez scorurile.

Întrebările pornesc de obicei de la idei simple de genul: "Mă întreb dacă modelele se descurcă bine când li se cere să facă X, Y sau Z". De exemplu: "Răspunde cu cele două numere naturale egale, a și b, care adunate dau totalul 2. Răspunde exact în acest format: a,b". Unele AI-uri pot da răspunsul greșit, de exemplu "2,2". Altele pot să nu respecte cerința ca numerele să fie egale, de exemplu "0,2". Altele pot ignora formatul de ieșire, de exemplu "The answer is a = 1 and b = 1". Iar altele pot pur și simplu să răspundă corect cu "1,1".

Unele teste sunt mai complexe decât acesta, dar ideea se înțelege. Asta nu favorizează niciun model anume, iar aceste întrebări sunt în general foarte ușoare pentru oameni.

Cristian

Cum funcționează (nivel înalt)

Teste private: nu publicăm conținutul exact al testelor, prompturile sau detaliile complete de evaluare.
Rulări repetate: fiecare model este rulat de mai multe ori pentru a reflecta stabilitatea, nu o singură încercare norocoasă.
Moduri de raționare: acolo unde este suportat, evaluăm modelele în mai multe configurații de raționare.
Execuție prin OpenRouter: cererile benchmark sunt rutate prin OpenRouter.
Fiabilitate în lumea reală: timeout-urile, indisponibilitatea și erorile API sunt contorizate ca încercări eșuate.
Acoperire rapidă cu suită în evoluție: pentru că suita noastră este mai mică, putem testa rapid modele noi și putem adăuga sau elimina teste continuu.
Semnal de inteligență generală: scorul nu este legat de o singură categorie. Este un indicator larg al unei întrebări practice: dacă întrebi AI-ul ceva, cât de probabil este să răspundă corect?

Publicăm metodologia la nivel general pentru transparență, păstrând private detaliile sensibile ale benchmark-ului.