7.4Wastani wa alama katika majaribio yote ya benchmark.…
7.4Wastani wa alama katika majaribio yote ya benchmark.…
Uthabiti
9.5Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
9.1Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
Gharama kwa matokeo
2.619Huonyesha gharama ya wastani kwa kila jibu sahihi la benchmark kwa senti (kadri ilivyo ndogo, ndivyo bora).…
0.000Huonyesha gharama ya wastani kwa kila jibu sahihi la benchmark kwa senti (kadri ilivyo ndogo, ndivyo bora).…
Jumla ya gharama
$0.288Jumla ya gharama…
$0.000Jumla ya gharama…
Majaribio sahihi
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 4Hakufuata maelekezo: 1Muda wa majibu (wastani)12.35sMuda wa majibu (upeo)95.48sMuda wa majibu (jumla)197.62sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakufuata maelekezo: 3Jibu lisilo sahihi: 3Muda wa majibu (wastani)29.10sMuda wa majibu (upeo)170.45sMuda wa majibu (jumla)290.96sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
Kiwango cha kupita kwa kila jaribio
72.9%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
68.8%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
Majaribio yasiyo thabiti
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
2Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jumla ya uendeshaji
48 (16 x 3)Jumla ya uendeshaji…
48 (16 x 3)Jumla ya uendeshaji…
Tokeni za matokeo
1,370Tokeni za matokeo…
71,452Tokeni za matokeo…
Tokeni za hoja
110,522Tokeni za hoja…
155,147Tokeni za hoja…
Muda wa majibu (wastani)
12.35sMuda wa majibu (wastani)…
29.10sMuda wa majibu (wastani)…
Muda wa majibu (upeo)
95.48sMuda wa majibu (upeo)…
170.45sMuda wa majibu (upeo)…
Muda wa majibu (jumla)
197.62sMuda wa majibu (jumla)…
290.96sMuda wa majibu (jumla)…
Modeli bora kwa alama
Alama dhidi ya gharama ya jumla
Muda wa majibu (wastani)
Wastani wa alama vs Muda wa majibu (wastani)
Mgawanyo wa kategoria
Mbinu za kupinga AI
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
Google: Gemini 2.5 Flash
7.3Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
66.7%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 1Muda wa majibu (wastani)6.98sMuda wa majibu (upeo)15.56sMuda wa majibu (jumla)20.95sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
6.98sMuda wa majibu (wastani)…
249Tokeni za matokeo…
8,832Tokeni za hoja…
StepFun: Step 3.5 Flash
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)18.54sMuda wa majibu (upeo)32.30sMuda wa majibu (jumla)37.07sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
18.54sMuda wa majibu (wastani)…
13,924Tokeni za matokeo…
17,208Tokeni za hoja…
Mchanganyiko
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
Google: Gemini 2.5 Flash
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)28.44sMuda wa majibu (upeo)28.44sMuda wa majibu (jumla)28.44sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
28.44sMuda wa majibu (wastani)…
303Tokeni za matokeo…
11,922Tokeni za hoja…
StepFun: Step 3.5 Flash
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)29.57sMuda wa majibu (upeo)29.57sMuda wa majibu (jumla)29.57sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
29.57sMuda wa majibu (wastani)…
1,176Tokeni za matokeo…
12,984Tokeni za hoja…
Uchanganuzi na uchimbaji wa data
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
Google: Gemini 2.5 Flash
9.9Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)4.06sMuda wa majibu (upeo)5.06sMuda wa majibu (jumla)8.11sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
4.06sMuda wa majibu (wastani)…
279Tokeni za matokeo…
2,325Tokeni za hoja…
StepFun: Step 3.5 Flash
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)15.01sMuda wa majibu (upeo)15.01sMuda wa majibu (jumla)15.01sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
15.01sMuda wa majibu (wastani)…
600Tokeni za matokeo…
13,886Tokeni za hoja…
Mahususi kwa domeni
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
Google: Gemini 2.5 Flash
4.0Wastani wa alama katika majaribio yote ya benchmark.…
7.2Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
55.6%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 2Muda wa majibu (wastani)37.34sMuda wa majibu (upeo)95.48sMuda wa majibu (jumla)112.01sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
37.34sMuda wa majibu (wastani)…
18Tokeni za matokeo…
80,702Tokeni za hoja…
StepFun: Step 3.5 Flash
4.0Wastani wa alama katika majaribio yote ya benchmark.…
7.2Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
44.4%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 2Muda wa majibu (wastani)170.45sMuda wa majibu (upeo)170.45sMuda wa majibu (jumla)170.45sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
170.45sMuda wa majibu (wastani)…
45,350Tokeni za matokeo…
90,436Tokeni za hoja…
Akili ya jumla
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
Google: Gemini 2.5 Flash
4.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
0.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakufuata maelekezo: 1Muda wa majibu (wastani)4.86sMuda wa majibu (upeo)4.86sMuda wa majibu (jumla)4.86sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
4.86sMuda wa majibu (wastani)…
92Tokeni za matokeo…
1,899Tokeni za hoja…
StepFun: Step 3.5 Flash
6.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
0.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakufuata maelekezo: 1Muda wa majibu (wastani)6.54sMuda wa majibu (upeo)6.54sMuda wa majibu (jumla)6.54sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
6.54sMuda wa majibu (wastani)…
2,214Tokeni za matokeo…
2,584Tokeni za hoja…
Ufuataji wa maagizo
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
Google: Gemini 2.5 Flash
9.5Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)2.62sMuda wa majibu (upeo)2.78sMuda wa majibu (jumla)5.24sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
2.62sMuda wa majibu (wastani)…
69Tokeni za matokeo…
1,203Tokeni za hoja…
StepFun: Step 3.5 Flash
9.0Wastani wa alama katika majaribio yote ya benchmark.…
6.8Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
83.3%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakufuata maelekezo: 1Muda wa majibu (wastani)4.98sMuda wa majibu (upeo)4.98sMuda wa majibu (jumla)4.98sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
4.98sMuda wa majibu (wastani)…
2,284Tokeni za matokeo…
3,412Tokeni za hoja…
Puzzle Solving
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
Google: Gemini 2.5 Flash
7.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
66.7%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 1Muda wa majibu (wastani)3.94sMuda wa majibu (upeo)6.33sMuda wa majibu (jumla)11.83sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
3.94sMuda wa majibu (wastani)…
126Tokeni za matokeo…
2,499Tokeni za hoja…
StepFun: Step 3.5 Flash
4.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
33.3%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakufuata maelekezo: 1Jibu lisilo sahihi: 1Muda wa majibu (wastani)7.72sMuda wa majibu (upeo)10.60sMuda wa majibu (jumla)15.44sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
7.72sMuda wa majibu (wastani)…
5,629Tokeni za matokeo…
10,835Tokeni za hoja…
Mwito wa zana
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
Google: Gemini 2.5 Flash
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)6.20sMuda wa majibu (upeo)6.20sMuda wa majibu (jumla)6.20sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
6.20sMuda wa majibu (wastani)…
234Tokeni za matokeo…
1,140Tokeni za hoja…
StepFun: Step 3.5 Flash
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)11.91sMuda wa majibu (upeo)11.91sMuda wa majibu (jumla)11.91sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…