AI BENCHY

Mbinu ya Benchmark

Ukurasa huu unaeleza njia yetu ya benchmark kwa kiwango cha juu. Tunahifadhi faragha ya vishawishi halisi na maelezo ya ndani ya tathmini kulinda uadilifu wa majaribio.

Inavyofanya kazi (kiwango cha juu)

Majaribio ya faragha: Hatuweki hadharani maudhui halisi ya majaribio, vishawishi, au maelezo kamili ya upimaji.
Marudio mengi: Kila modeli hukimbizwa mara nyingi ili matokeo yaonyeshe uthabiti, si bahati ya jaribio moja.
Njia za reasoning: Zinapowezekana, tunapima modeli katika mipangilio mbalimbali ya reasoning.
Utekelezaji kupitia OpenRouter: Maombi ya benchmark hupitishwa kupitia OpenRouter.
Uaminifu wa matumizi halisi: Timeout, downtime, na makosa ya API huhesabiwa kama majaribio yaliyoshindwa.
Ufunikaji wa haraka na suite inayoendelea: Kwa kuwa suite yetu ni ndogo, tunaweza kujaribu modeli mpya haraka na kuongeza au kuondoa majaribio mara kwa mara.
Ishara ya akili ya jumla: Alama haifungwi na kundi moja. Ni kiashiria cha swali la vitendo: ukiiuliza AI chochote, ina uwezekano gani wa kujibu kwa usahihi?

Tunachapisha mbinu kwa kiwango cha jumla kwa uwazi huku tukihifadhi faragha ya maelezo nyeti ya benchmark.