7.41Wastani wa alama katika majaribio yote ya benchmark.…
7.27Wastani wa alama katika majaribio yote ya benchmark.…
7.84Wastani wa alama katika majaribio yote ya benchmark.…
Uthabiti
9.45Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
8.26Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
10.00Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
Gharama kwa matokeo
2.261Huonyesha gharama ya wastani kwa kila jibu sahihi la benchmark kwa senti (kadri ilivyo ndogo, ndivyo bora).…
2.835Huonyesha gharama ya wastani kwa kila jibu sahihi la benchmark kwa senti (kadri ilivyo ndogo, ndivyo bora).…
0.151Huonyesha gharama ya wastani kwa kila jibu sahihi la benchmark kwa senti (kadri ilivyo ndogo, ndivyo bora).…
Jumla ya gharama
$0.227Jumla ya gharama…
$0.256Jumla ya gharama…
$0.016Jumla ya gharama…
Majaribio sahihi
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 3Hakufuata maelekezo: 1Muda wa majibu (wastani)7.16sMuda wa majibu (upeo)38.52sMuda wa majibu (jumla)100.19sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 3Hakufuata maelekezo: 2Muda wa majibu (wastani)5.81sMuda wa majibu (upeo)18.33sMuda wa majibu (jumla)81.36sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 3Hakufuata maelekezo: 1Muda wa majibu (wastani)2.88sMuda wa majibu (upeo)9.54sMuda wa majibu (jumla)40.39sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
Kiwango cha kupita kwa kila jaribio
73.8%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
73.8%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
71.4%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
Majaribio yasiyo thabiti
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
3Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Tokeni za matokeo
14,267Tokeni za matokeo…
16,339Tokeni za matokeo…
1,317Tokeni za matokeo…
Tokeni za hoja
0Tokeni za hoja…
0Tokeni za hoja…
6,126Tokeni za hoja…
Modeli bora kwa alama
Alama dhidi ya gharama ya jumla
Mgawanyo wa kategoria
Mbinu za kupinga AI
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Tokeni za matokeo
Tokeni za hoja
OpenAI: GPT-5.2 Chat
10.00Wastani wa alama katika majaribio yote ya benchmark.…
10.00Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)3.97sMuda wa majibu (upeo)4.78sMuda wa majibu (jumla)11.90sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
1,651Tokeni za matokeo…
0Tokeni za hoja…
OpenAI: GPT-5.3 Chat
7.33Wastani wa alama katika majaribio yote ya benchmark.…
7.49Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
77.8%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakufuata maelekezo: 1Muda wa majibu (wastani)4.72sMuda wa majibu (upeo)7.35sMuda wa majibu (jumla)14.17sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
3,091Tokeni za matokeo…
0Tokeni za hoja…
Google: Gemini 3.1 Flash Lite Preview
7.00Wastani wa alama katika majaribio yote ya benchmark.…
10.00Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
66.7%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 1Muda wa majibu (wastani)2.18sMuda wa majibu (upeo)3.18sMuda wa majibu (jumla)6.53sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
456Tokeni za matokeo…
1,224Tokeni za hoja…
Uchanganuzi na uchimbaji wa data
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Tokeni za matokeo
Tokeni za hoja
OpenAI: GPT-5.2 Chat
9.88Wastani wa alama katika majaribio yote ya benchmark.…
10.00Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)3.05sMuda wa majibu (upeo)3.33sMuda wa majibu (jumla)6.10sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
980Tokeni za matokeo…
0Tokeni za hoja…
OpenAI: GPT-5.3 Chat
9.88Wastani wa alama katika majaribio yote ya benchmark.…
10.00Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)2.21sMuda wa majibu (upeo)2.52sMuda wa majibu (jumla)4.42sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
942Tokeni za matokeo…
0Tokeni za hoja…
Google: Gemini 3.1 Flash Lite Preview
9.88Wastani wa alama katika majaribio yote ya benchmark.…
10.00Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)3.00sMuda wa majibu (upeo)3.74sMuda wa majibu (jumla)5.99sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
291Tokeni za matokeo…
696Tokeni za hoja…
Mahususi kwa domeni
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Tokeni za matokeo
Tokeni za hoja
OpenAI: GPT-5.2 Chat
4.00Wastani wa alama katika majaribio yote ya benchmark.…
10.00Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
33.3%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 2Muda wa majibu (wastani)17.78sMuda wa majibu (upeo)38.52sMuda wa majibu (jumla)53.33sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
7,810Tokeni za matokeo…
0Tokeni za hoja…
OpenAI: GPT-5.3 Chat
1.00Wastani wa alama katika majaribio yote ya benchmark.…
4.41Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
33.3%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
2Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 3Muda wa majibu (wastani)13.01sMuda wa majibu (upeo)18.33sMuda wa majibu (jumla)39.04sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
8,264Tokeni za matokeo…
0Tokeni za hoja…
Google: Gemini 3.1 Flash Lite Preview
4.00Wastani wa alama katika majaribio yote ya benchmark.…
10.00Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
33.3%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 2Muda wa majibu (wastani)2.36sMuda wa majibu (upeo)3.51sMuda wa majibu (jumla)7.07sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
18Tokeni za matokeo…
1,212Tokeni za hoja…
Ufuataji wa maagizo
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Tokeni za matokeo
Tokeni za hoja
OpenAI: GPT-5.2 Chat
5.50Wastani wa alama katika majaribio yote ya benchmark.…
6.13Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
66.7%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakufuata maelekezo: 1Muda wa majibu (wastani)5.46sMuda wa majibu (upeo)6.45sMuda wa majibu (jumla)10.92sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
1,528Tokeni za matokeo…
0Tokeni za hoja…
OpenAI: GPT-5.3 Chat
8.50Wastani wa alama katika majaribio yote ya benchmark.…
9.99Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
50.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakufuata maelekezo: 1Muda wa majibu (wastani)3.29sMuda wa majibu (upeo)4.18sMuda wa majibu (jumla)6.59sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
1,455Tokeni za matokeo…
0Tokeni za hoja…
Google: Gemini 3.1 Flash Lite Preview
8.50Wastani wa alama katika majaribio yote ya benchmark.…
10.00Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
50.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakufuata maelekezo: 1Muda wa majibu (wastani)1.49sMuda wa majibu (upeo)1.66sMuda wa majibu (jumla)2.99sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
72Tokeni za matokeo…
753Tokeni za hoja…
Puzzle Solving
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Tokeni za matokeo
Tokeni za hoja
OpenAI: GPT-5.2 Chat
7.00Wastani wa alama katika majaribio yote ya benchmark.…
10.00Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
66.7%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 1Muda wa majibu (wastani)4.42sMuda wa majibu (upeo)5.04sMuda wa majibu (jumla)13.27sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
1,743Tokeni za matokeo…
0Tokeni za hoja…
OpenAI: GPT-5.3 Chat
10.00Wastani wa alama katika majaribio yote ya benchmark.…
10.00Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)2.93sMuda wa majibu (upeo)3.05sMuda wa majibu (jumla)8.78sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
1,726Tokeni za matokeo…
0Tokeni za hoja…
Google: Gemini 3.1 Flash Lite Preview
10.00Wastani wa alama katika majaribio yote ya benchmark.…
10.00Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)2.76sMuda wa majibu (upeo)5.08sMuda wa majibu (jumla)8.27sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
243Tokeni za matokeo…
1,248Tokeni za hoja…
Mwito wa zana
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Tokeni za matokeo
Tokeni za hoja
OpenAI: GPT-5.2 Chat
10.00Wastani wa alama katika majaribio yote ya benchmark.…
10.00Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)4.68sMuda wa majibu (upeo)4.68sMuda wa majibu (jumla)4.68sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
555Tokeni za matokeo…
0Tokeni za hoja…
OpenAI: GPT-5.3 Chat
10.00Wastani wa alama katika majaribio yote ya benchmark.…
10.00Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)8.36sMuda wa majibu (upeo)8.36sMuda wa majibu (jumla)8.36sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
861Tokeni za matokeo…
0Tokeni za hoja…
Google: Gemini 3.1 Flash Lite Preview
10.00Wastani wa alama katika majaribio yote ya benchmark.…
10.00Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)9.54sMuda wa majibu (upeo)9.54sMuda wa majibu (jumla)9.54sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…