6.1Wastani wa alama katika majaribio yote ya benchmark.…
4.9Wastani wa alama katika majaribio yote ya benchmark.…
Nafasi
#31
#40
Majaribio sahihi
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakufuata maelekezo: 3Jibu lisilo sahihi: 3Muda umeisha: 1Muda wa majibu (wastani)25.92sMuda wa majibu (upeo)88.15sMuda wa majibu (jumla)388.79sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 8Hakufuata maelekezo: 1Muda wa majibu (wastani)3.73sMuda wa majibu (upeo)13.73sMuda wa majibu (jumla)55.90sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
Uthabiti
8.9Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
9.5Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
Gharama kwa matokeo
1.401Huonyesha gharama ya wastani kwa kila jibu sahihi la benchmark kwa senti (kadri ilivyo ndogo, ndivyo bora).…
0.088Huonyesha gharama ya wastani kwa kila jibu sahihi la benchmark kwa senti (kadri ilivyo ndogo, ndivyo bora).…
Jumla ya gharama
$0.113Jumla ya gharama…
$0.006Jumla ya gharama…
Kiwango cha kupita kwa kila jaribio
62.2%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
42.2%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
Majaribio yasiyo thabiti
2Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
common.totalRuns
45 (15 x 3)common.totalRuns…
45 (15 x 3)common.totalRuns…
Tokeni za matokeo
5,477Tokeni za matokeo…
3,674Tokeni za matokeo…
Tokeni za hoja
46,912Tokeni za hoja…
0Tokeni za hoja…
Muda wa majibu (wastani)
25.92sMuda wa majibu (wastani)…
3.73sMuda wa majibu (wastani)…
Muda wa majibu (upeo)
88.15sMuda wa majibu (upeo)…
13.73sMuda wa majibu (upeo)…
Muda wa majibu (jumla)
388.79sMuda wa majibu (jumla)…
55.90sMuda wa majibu (jumla)…
Modeli bora kwa alama
Alama dhidi ya gharama ya jumla
Muda wa majibu (wastani)
Wastani wa alama vs Muda wa majibu (wastani)
Mgawanyo wa kategoria
Mbinu za kupinga AI
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
OpenAI: GPT-5 Mini
7.0Wastani wa alama katika majaribio yote ya benchmark.…
9.6Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
66.7%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakufuata maelekezo: 1Muda wa majibu (wastani)16.45sMuda wa majibu (upeo)26.00sMuda wa majibu (jumla)49.36sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
16.45sMuda wa majibu (wastani)…
1,645Tokeni za matokeo…
5,824Tokeni za hoja…
Qwen: Qwen3.5-Flash
2.3Wastani wa alama katika majaribio yote ya benchmark.…
7.8Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
11.1%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 3Muda wa majibu (wastani)1.62sMuda wa majibu (upeo)3.89sMuda wa majibu (jumla)4.85sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
1.62sMuda wa majibu (wastani)…
687Tokeni za matokeo…
0Tokeni za hoja…
Mchanganyiko
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
OpenAI: GPT-5 Mini
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)88.15sMuda wa majibu (upeo)88.15sMuda wa majibu (jumla)88.15sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
88.15sMuda wa majibu (wastani)…
754Tokeni za matokeo…
11,520Tokeni za hoja…
Qwen: Qwen3.5-Flash
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
0.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 1Muda wa majibu (wastani)6.22sMuda wa majibu (upeo)6.22sMuda wa majibu (jumla)6.22sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
6.22sMuda wa majibu (wastani)…
1,794Tokeni za matokeo…
0Tokeni za hoja…
Uchanganuzi na uchimbaji wa data
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
OpenAI: GPT-5 Mini
9.9Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)12.58sMuda wa majibu (upeo)13.87sMuda wa majibu (jumla)25.16sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
12.58sMuda wa majibu (wastani)…
453Tokeni za matokeo…
3,200Tokeni za hoja…
Qwen: Qwen3.5-Flash
9.9Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)1.57sMuda wa majibu (upeo)1.83sMuda wa majibu (jumla)3.14sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
1.57sMuda wa majibu (wastani)…
243Tokeni za matokeo…
0Tokeni za hoja…
Mahususi kwa domeni
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
OpenAI: GPT-5 Mini
10.0Wastani wa alama katika majaribio yote ya benchmark.…
7.2Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
22.2%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 2Muda umeisha: 1Muda wa majibu (wastani)44.63sMuda wa majibu (upeo)82.55sMuda wa majibu (jumla)133.89sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
44.63sMuda wa majibu (wastani)…
293Tokeni za matokeo…
14,016Tokeni za hoja…
Qwen: Qwen3.5-Flash
7.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
66.7%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 1Muda wa majibu (wastani)905msMuda wa majibu (upeo)1.10sMuda wa majibu (jumla)2.71sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
905msMuda wa majibu (wastani)…
15Tokeni za matokeo…
0Tokeni za hoja…
Ufuataji wa maagizo
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
OpenAI: GPT-5 Mini
7.5Wastani wa alama katika majaribio yote ya benchmark.…
6.6Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
83.3%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakufuata maelekezo: 1Muda wa majibu (wastani)15.66sMuda wa majibu (upeo)21.80sMuda wa majibu (jumla)31.32sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
15.66sMuda wa majibu (wastani)…
318Tokeni za matokeo…
4,992Tokeni za hoja…
Qwen: Qwen3.5-Flash
5.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
50.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 1Muda wa majibu (wastani)8.81sMuda wa majibu (upeo)13.73sMuda wa majibu (jumla)17.61sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
8.81sMuda wa majibu (wastani)…
63Tokeni za matokeo…
0Tokeni za hoja…
Puzzle Solving
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
OpenAI: GPT-5 Mini
4.3Wastani wa alama katika majaribio yote ya benchmark.…
9.8Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
33.3%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakufuata maelekezo: 1Jibu lisilo sahihi: 1Muda wa majibu (wastani)14.09sMuda wa majibu (upeo)16.81sMuda wa majibu (jumla)42.28sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
14.09sMuda wa majibu (wastani)…
1,527Tokeni za matokeo…
5,760Tokeni za hoja…
Qwen: Qwen3.5-Flash
1.3Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
0.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 2Hakufuata maelekezo: 1Muda wa majibu (wastani)5.90sMuda wa majibu (upeo)12.19sMuda wa majibu (jumla)17.69sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
5.90sMuda wa majibu (wastani)…
608Tokeni za matokeo…
0Tokeni za hoja…
Mwito wa zana
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
OpenAI: GPT-5 Mini
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)18.64sMuda wa majibu (upeo)18.64sMuda wa majibu (jumla)18.64sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
18.64sMuda wa majibu (wastani)…
487Tokeni za matokeo…
1,600Tokeni za hoja…
Qwen: Qwen3.5-Flash
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)3.67sMuda wa majibu (upeo)3.67sMuda wa majibu (jumla)3.67sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…