7.5Wastani wa alama katika majaribio yote ya benchmark.…
7.4Wastani wa alama katika majaribio yote ya benchmark.…
Uthabiti
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
9.1Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
Gharama kwa matokeo
0.443Huonyesha gharama ya wastani kwa kila jibu sahihi la benchmark kwa senti (kadri ilivyo ndogo, ndivyo bora).…
0.000Huonyesha gharama ya wastani kwa kila jibu sahihi la benchmark kwa senti (kadri ilivyo ndogo, ndivyo bora).…
Jumla ya gharama
$0.049Jumla ya gharama…
$0.000Jumla ya gharama…
Majaribio sahihi
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 4Hakufuata maelekezo: 1Muda wa majibu (wastani)3.83sMuda wa majibu (upeo)14.93sMuda wa majibu (jumla)61.25sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakufuata maelekezo: 3Jibu lisilo sahihi: 3Muda wa majibu (wastani)29.10sMuda wa majibu (upeo)170.45sMuda wa majibu (jumla)290.96sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
Kiwango cha kupita kwa kila jaribio
68.8%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
68.8%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
Majaribio yasiyo thabiti
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
2Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jumla ya uendeshaji
48 (16 x 3)Jumla ya uendeshaji…
48 (16 x 3)Jumla ya uendeshaji…
Tokeni za matokeo
1,731Tokeni za matokeo…
71,452Tokeni za matokeo…
Tokeni za hoja
25,821Tokeni za hoja…
155,147Tokeni za hoja…
Muda wa majibu (wastani)
3.83sMuda wa majibu (wastani)…
29.10sMuda wa majibu (wastani)…
Muda wa majibu (upeo)
14.93sMuda wa majibu (upeo)…
170.45sMuda wa majibu (upeo)…
Muda wa majibu (jumla)
61.25sMuda wa majibu (jumla)…
290.96sMuda wa majibu (jumla)…
Modeli bora kwa alama
Alama dhidi ya gharama ya jumla
Muda wa majibu (wastani)
Wastani wa alama vs Muda wa majibu (wastani)
Mgawanyo wa kategoria
Mbinu za kupinga AI
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
Google: Gemini 3.1 Flash Lite Preview
9.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
66.7%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakufuata maelekezo: 1Muda wa majibu (wastani)2.53sMuda wa majibu (upeo)3.89sMuda wa majibu (jumla)7.58sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
2.53sMuda wa majibu (wastani)…
564Tokeni za matokeo…
3,780Tokeni za hoja…
StepFun: Step 3.5 Flash
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)18.54sMuda wa majibu (upeo)32.30sMuda wa majibu (jumla)37.07sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
18.54sMuda wa majibu (wastani)…
13,924Tokeni za matokeo…
17,208Tokeni za hoja…
Mchanganyiko
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
Google: Gemini 3.1 Flash Lite Preview
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)14.93sMuda wa majibu (upeo)14.93sMuda wa majibu (jumla)14.93sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
14.93sMuda wa majibu (wastani)…
327Tokeni za matokeo…
7,347Tokeni za hoja…
StepFun: Step 3.5 Flash
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)29.57sMuda wa majibu (upeo)29.57sMuda wa majibu (jumla)29.57sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
29.57sMuda wa majibu (wastani)…
1,176Tokeni za matokeo…
12,984Tokeni za hoja…
Uchanganuzi na uchimbaji wa data
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
Google: Gemini 3.1 Flash Lite Preview
9.9Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)2.29sMuda wa majibu (upeo)2.31sMuda wa majibu (jumla)4.59sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
2.29sMuda wa majibu (wastani)…
279Tokeni za matokeo…
2,952Tokeni za hoja…
StepFun: Step 3.5 Flash
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)15.01sMuda wa majibu (upeo)15.01sMuda wa majibu (jumla)15.01sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
15.01sMuda wa majibu (wastani)…
600Tokeni za matokeo…
13,886Tokeni za hoja…
Mahususi kwa domeni
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
Google: Gemini 3.1 Flash Lite Preview
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
0.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 3Muda wa majibu (wastani)4.21sMuda wa majibu (upeo)5.86sMuda wa majibu (jumla)12.62sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
4.21sMuda wa majibu (wastani)…
18Tokeni za matokeo…
5,325Tokeni za hoja…
StepFun: Step 3.5 Flash
4.0Wastani wa alama katika majaribio yote ya benchmark.…
7.2Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
44.4%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 2Muda wa majibu (wastani)170.45sMuda wa majibu (upeo)170.45sMuda wa majibu (jumla)170.45sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
170.45sMuda wa majibu (wastani)…
45,350Tokeni za matokeo…
90,436Tokeni za hoja…
Akili ya jumla
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
Google: Gemini 3.1 Flash Lite Preview
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)3.16sMuda wa majibu (upeo)3.16sMuda wa majibu (jumla)3.16sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
3.16sMuda wa majibu (wastani)…
96Tokeni za matokeo…
1,488Tokeni za hoja…
StepFun: Step 3.5 Flash
6.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
0.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakufuata maelekezo: 1Muda wa majibu (wastani)6.54sMuda wa majibu (upeo)6.54sMuda wa majibu (jumla)6.54sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
6.54sMuda wa majibu (wastani)…
2,214Tokeni za matokeo…
2,584Tokeni za hoja…
Ufuataji wa maagizo
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
Google: Gemini 3.1 Flash Lite Preview
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)1.91sMuda wa majibu (upeo)1.93sMuda wa majibu (jumla)3.82sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
1.91sMuda wa majibu (wastani)…
72Tokeni za matokeo…
2,121Tokeni za hoja…
StepFun: Step 3.5 Flash
9.0Wastani wa alama katika majaribio yote ya benchmark.…
6.8Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
83.3%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakufuata maelekezo: 1Muda wa majibu (wastani)4.98sMuda wa majibu (upeo)4.98sMuda wa majibu (jumla)4.98sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
4.98sMuda wa majibu (wastani)…
2,284Tokeni za matokeo…
3,412Tokeni za hoja…
Puzzle Solving
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
Google: Gemini 3.1 Flash Lite Preview
7.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
66.7%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 1Muda wa majibu (wastani)3.58sMuda wa majibu (upeo)4.41sMuda wa majibu (jumla)10.75sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
3.58sMuda wa majibu (wastani)…
141Tokeni za matokeo…
1,896Tokeni za hoja…
StepFun: Step 3.5 Flash
4.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
33.3%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakufuata maelekezo: 1Jibu lisilo sahihi: 1Muda wa majibu (wastani)7.72sMuda wa majibu (upeo)10.60sMuda wa majibu (jumla)15.44sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
7.72sMuda wa majibu (wastani)…
5,629Tokeni za matokeo…
10,835Tokeni za hoja…
Mwito wa zana
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
Google: Gemini 3.1 Flash Lite Preview
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)3.80sMuda wa majibu (upeo)3.80sMuda wa majibu (jumla)3.80sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
3.80sMuda wa majibu (wastani)…
234Tokeni za matokeo…
912Tokeni za hoja…
StepFun: Step 3.5 Flash
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)11.91sMuda wa majibu (upeo)11.91sMuda wa majibu (jumla)11.91sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…