7.6Wastani wa alama katika majaribio yote ya benchmark.…
6.4Wastani wa alama katika majaribio yote ya benchmark.…
Nafasi
#12
#29
Majaribio sahihi
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 4Muda wa majibu (wastani)3.49sMuda wa majibu (upeo)11.91sMuda wa majibu (jumla)52.29sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 3Hakufuata maelekezo: 1Hakuna jibu: 1Muda umeisha: 1Muda wa majibu (wastani)69.84sMuda wa majibu (upeo)137.29sMuda wa majibu (jumla)558.72sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
Uthabiti
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
7.8Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
Gharama kwa matokeo
0.170Huonyesha gharama ya wastani kwa kila jibu sahihi la benchmark kwa senti (kadri ilivyo ndogo, ndivyo bora).…
2.082Huonyesha gharama ya wastani kwa kila jibu sahihi la benchmark kwa senti (kadri ilivyo ndogo, ndivyo bora).…
Jumla ya gharama
$0.019Jumla ya gharama…
$0.188Jumla ya gharama…
Kiwango cha kupita kwa kila jaribio
73.3%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
73.3%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
Majaribio yasiyo thabiti
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
4Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
common.totalRuns
45 (15 x 3)common.totalRuns…
45 (15 x 3)common.totalRuns…
Tokeni za matokeo
1,542Tokeni za matokeo…
34,638Tokeni za matokeo…
Tokeni za hoja
6,888Tokeni za hoja…
68,234Tokeni za hoja…
Muda wa majibu (wastani)
3.49sMuda wa majibu (wastani)…
69.84sMuda wa majibu (wastani)…
Muda wa majibu (upeo)
11.91sMuda wa majibu (upeo)…
137.29sMuda wa majibu (upeo)…
Muda wa majibu (jumla)
52.29sMuda wa majibu (jumla)…
558.72sMuda wa majibu (jumla)…
Modeli bora kwa alama
Alama dhidi ya gharama ya jumla
Muda wa majibu (wastani)
Wastani wa alama vs Muda wa majibu (wastani)
Mgawanyo wa kategoria
Mbinu za kupinga AI
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
Google: Gemini 3.1 Flash Lite Preview
7.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
66.7%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 1Muda wa majibu (wastani)2.18sMuda wa majibu (upeo)3.18sMuda wa majibu (jumla)6.53sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
2.18sMuda wa majibu (wastani)…
456Tokeni za matokeo…
1,224Tokeni za hoja…
MoonshotAI: Kimi K2.5
7.0Wastani wa alama katika majaribio yote ya benchmark.…
7.2Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
88.9%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna jibu: 1Muda wa majibu (wastani)85.28sMuda wa majibu (upeo)85.28sMuda wa majibu (jumla)85.28sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
85.28sMuda wa majibu (wastani)…
335Tokeni za matokeo…
6,255Tokeni za hoja…
Mchanganyiko
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
Google: Gemini 3.1 Flash Lite Preview
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
0.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 1Muda wa majibu (wastani)11.91sMuda wa majibu (upeo)11.91sMuda wa majibu (jumla)11.91sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
11.91sMuda wa majibu (wastani)…
225Tokeni za matokeo…
762Tokeni za hoja…
MoonshotAI: Kimi K2.5
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)71.37sMuda wa majibu (upeo)71.37sMuda wa majibu (jumla)71.37sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
71.37sMuda wa majibu (wastani)…
703Tokeni za matokeo…
3,713Tokeni za hoja…
Uchanganuzi na uchimbaji wa data
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
Google: Gemini 3.1 Flash Lite Preview
9.9Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)3.00sMuda wa majibu (upeo)3.74sMuda wa majibu (jumla)5.99sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
3.00sMuda wa majibu (wastani)…
291Tokeni za matokeo…
696Tokeni za hoja…
MoonshotAI: Kimi K2.5
9.9Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)49.78sMuda wa majibu (upeo)49.78sMuda wa majibu (jumla)49.78sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
49.78sMuda wa majibu (wastani)…
563Tokeni za matokeo…
7,940Tokeni za hoja…
Mahususi kwa domeni
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
Google: Gemini 3.1 Flash Lite Preview
4.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
33.3%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 2Muda wa majibu (wastani)2.36sMuda wa majibu (upeo)3.51sMuda wa majibu (jumla)7.07sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
2.36sMuda wa majibu (wastani)…
18Tokeni za matokeo…
1,212Tokeni za hoja…
MoonshotAI: Kimi K2.5
10.0Wastani wa alama katika majaribio yote ya benchmark.…
4.4Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
33.3%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
2Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 2Muda umeisha: 1Muda wa majibu (wastani)137.29sMuda wa majibu (upeo)137.29sMuda wa majibu (jumla)137.29sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
137.29sMuda wa majibu (wastani)…
20,753Tokeni za matokeo…
30,564Tokeni za hoja…
Ufuataji wa maagizo
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
Google: Gemini 3.1 Flash Lite Preview
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)1.49sMuda wa majibu (upeo)1.66sMuda wa majibu (jumla)2.99sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
1.49sMuda wa majibu (wastani)…
72Tokeni za matokeo…
753Tokeni za hoja…
MoonshotAI: Kimi K2.5
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)92.47sMuda wa majibu (upeo)92.47sMuda wa majibu (jumla)92.47sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
92.47sMuda wa majibu (wastani)…
5,371Tokeni za matokeo…
6,547Tokeni za hoja…
Puzzle Solving
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
Google: Gemini 3.1 Flash Lite Preview
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)2.76sMuda wa majibu (upeo)5.08sMuda wa majibu (jumla)8.27sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
2.76sMuda wa majibu (wastani)…
243Tokeni za matokeo…
1,248Tokeni za hoja…
MoonshotAI: Kimi K2.5
4.0Wastani wa alama katika majaribio yote ya benchmark.…
7.3Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
44.4%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakufuata maelekezo: 1Jibu lisilo sahihi: 1Muda wa majibu (wastani)45.40sMuda wa majibu (upeo)82.75sMuda wa majibu (jumla)90.79sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
45.40sMuda wa majibu (wastani)…
6,671Tokeni za matokeo…
12,403Tokeni za hoja…
Mwito wa zana
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
Google: Gemini 3.1 Flash Lite Preview
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)9.54sMuda wa majibu (upeo)9.54sMuda wa majibu (jumla)9.54sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
9.54sMuda wa majibu (wastani)…
237Tokeni za matokeo…
993Tokeni za hoja…
MoonshotAI: Kimi K2.5
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)31.74sMuda wa majibu (upeo)31.74sMuda wa majibu (jumla)31.74sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…