Mbinu ya Benchmark

Ukurasa huu unaeleza njia yetu ya benchmark kwa kiwango cha juu. Tunahifadhi faragha ya vishawishi halisi na maelezo ya ndani ya tathmini kulinda uadilifu wa majaribio.

Majaribio

Maswali mengi huchaguliwa kwa namna ya nasibu kiasi, kutoka kazi na nyanja tofauti. Kistatistiki, modeli bora inapaswa kwa wastani kufanya vizuri zaidi kuliko modeli dhaifu kwenye kazi ya nasibu ambayo haijachaguliwa kwa upendeleo. Nina historia ya competitive programming, kwa hiyo kufikiria kuhusu majaribio na edge cases kunanijia kwa kawaida.

Hii si thamani yoyote ya "IQ" iliyosanifishwa. Alama haina kipimo; ni thamani ya kubuni tu inayoonyesha jinsi modeli inavyofanya kwenye suite nzima ya majaribio (majibu sahihi + uthabiti). Sichagui modeli kwa cherry-pick na sibadilishi majaribio ili kuendana na modeli fulani. Nikipata wazo la jaribio jipya, naliweka, napima tena modeli zote, na nakokotoa tena alama.

Maswali kawaida hutokana na mawazo rahisi kama: "Najiuliza kama modeli zitafanya vizuri zikiombwa kufanya X, Y, au Z." Kwa mfano: "Jibu kwa namba mbili za asili zilizo sawa, a na b, ambazo zikijumlishwa zinatoa jumla ya 2. Jibu kwa muundo huu hasa: a,b". Baadhi ya AI zinaweza kutoa jibu lisilo sahihi, kwa mfano "2,2". Nyingine zinaweza kutofuata sharti la namba kuwa sawa, kwa mfano "0,2". Nyingine zinaweza kupuuza muundo wa majibu, kwa mfano "The answer is a = 1 and b = 1". Na nyingine zinaweza kujibu kwa usahihi tu na "1,1".

Baadhi ya majaribio ni magumu zaidi kuliko huu mfano, lakini unapata wazo kuu. Hii haimpendelei modeli yoyote maalum, na maswali haya kwa ujumla ni rahisi sana kwa binadamu.

Cristian

Inavyofanya kazi (kiwango cha juu)

Majaribio ya faragha: Hatuweki hadharani maudhui halisi ya majaribio, vishawishi, au maelezo kamili ya upimaji.
Marudio mengi: Kila modeli hukimbizwa mara nyingi ili matokeo yaonyeshe uthabiti, si bahati ya jaribio moja.
Njia za reasoning: Zinapowezekana, tunapima modeli katika mipangilio mbalimbali ya reasoning.
Utekelezaji kupitia OpenRouter: Maombi ya benchmark hupitishwa kupitia OpenRouter.
Uaminifu wa matumizi halisi: Timeout, downtime, na makosa ya API huhesabiwa kama majaribio yaliyoshindwa.
Ufunikaji wa haraka na suite inayoendelea: Kwa kuwa suite yetu ni ndogo, tunaweza kujaribu modeli mpya haraka na kuongeza au kuondoa majaribio mara kwa mara.
Ishara ya akili ya jumla: Alama haifungwi na kundi moja. Ni kiashiria cha swali la vitendo: ukiiuliza AI chochote, ina uwezekano gani wa kujibu kwa usahihi?

Tunachapisha mbinu kwa kiwango cha jumla kwa uwazi huku tukihifadhi faragha ya maelezo nyeti ya benchmark.