3.4Wastani wa alama katika majaribio yote ya benchmark.…
6.4Wastani wa alama katika majaribio yote ya benchmark.…
Majaribio sahihi
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 11Muda wa majibu (wastani)594msMuda wa majibu (upeo)1.27sMuda wa majibu (jumla)8.91sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakufuata maelekezo: 2Jibu lisilo sahihi: 2Hakuna jibu: 1Muda umeisha: 1Muda wa majibu (wastani)27.61sMuda wa majibu (upeo)121.79sMuda wa majibu (jumla)220.87sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
Nafasi
#50
#28
Uthabiti
8.9Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
7.8Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
Gharama kwa matokeo
0.147Huonyesha gharama ya wastani kwa kila jibu sahihi la benchmark kwa senti (kadri ilivyo ndogo, ndivyo bora).…
0.541Huonyesha gharama ya wastani kwa kila jibu sahihi la benchmark kwa senti (kadri ilivyo ndogo, ndivyo bora).…
Jumla ya gharama
$0.006Jumla ya gharama…
$0.049Jumla ya gharama…
Kiwango cha kupita kwa kila jaribio
33.3%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
71.1%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
Majaribio yasiyo thabiti
2Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
4Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
common.totalAttempts
45 (15 x 3)common.totalAttempts…
45 (15 x 3)common.totalAttempts…
Tokeni za matokeo
1,144Tokeni za matokeo…
1,056Tokeni za matokeo…
Tokeni za hoja
0Tokeni za hoja…
80,419Tokeni za hoja…
Muda wa majibu (wastani)
594msMuda wa majibu (wastani)…
27.61sMuda wa majibu (wastani)…
Muda wa majibu (upeo)
1.27sMuda wa majibu (upeo)…
121.79sMuda wa majibu (upeo)…
Muda wa majibu (jumla)
8.91sMuda wa majibu (jumla)…
220.87sMuda wa majibu (jumla)…
Modeli bora kwa alama
Alama dhidi ya gharama ya jumla
Muda wa majibu (wastani)
Wastani wa alama vs Muda wa majibu (wastani)
Mgawanyo wa kategoria
Mbinu za kupinga AI
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
Inception: Mercury 2
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
0.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 3Muda wa majibu (wastani)466msMuda wa majibu (upeo)716msMuda wa majibu (jumla)1.40sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
466msMuda wa majibu (wastani)…
274Tokeni za matokeo…
0Tokeni za hoja…
xAI: Grok 4.1 Fast
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)5.65sMuda wa majibu (upeo)5.65sMuda wa majibu (jumla)5.65sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
5.65sMuda wa majibu (wastani)…
102Tokeni za matokeo…
4,021Tokeni za hoja…
Mchanganyiko
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
Inception: Mercury 2
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
0.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 1Muda wa majibu (wastani)606msMuda wa majibu (upeo)606msMuda wa majibu (jumla)606msJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
606msMuda wa majibu (wastani)…
131Tokeni za matokeo…
0Tokeni za hoja…
xAI: Grok 4.1 Fast
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)37.64sMuda wa majibu (upeo)37.64sMuda wa majibu (jumla)37.64sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
37.64sMuda wa majibu (wastani)…
261Tokeni za matokeo…
12,272Tokeni za hoja…
Uchanganuzi na uchimbaji wa data
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
Inception: Mercury 2
5.5Wastani wa alama katika majaribio yote ya benchmark.…
5.9Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
83.3%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 1Muda wa majibu (wastani)667msMuda wa majibu (upeo)819msMuda wa majibu (jumla)1.33sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
667msMuda wa majibu (wastani)…
180Tokeni za matokeo…
0Tokeni za hoja…
xAI: Grok 4.1 Fast
9.9Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)6.63sMuda wa majibu (upeo)6.63sMuda wa majibu (jumla)6.63sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
6.63sMuda wa majibu (wastani)…
180Tokeni za matokeo…
5,409Tokeni za hoja…
Mahususi kwa domeni
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
Inception: Mercury 2
4.0Wastani wa alama katika majaribio yote ya benchmark.…
7.2Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
44.4%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 2Muda wa majibu (wastani)534msMuda wa majibu (upeo)733msMuda wa majibu (jumla)1.60sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
534msMuda wa majibu (wastani)…
46Tokeni za matokeo…
0Tokeni za hoja…
xAI: Grok 4.1 Fast
4.0Wastani wa alama katika majaribio yote ya benchmark.…
4.4Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
66.7%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
2Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Muda umeisha: 1Jibu lisilo sahihi: 1Muda wa majibu (wastani)121.79sMuda wa majibu (upeo)121.79sMuda wa majibu (jumla)121.79sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
121.79sMuda wa majibu (wastani)…
11Tokeni za matokeo…
37,657Tokeni za hoja…
Ufuataji wa maagizo
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
Inception: Mercury 2
5.5Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
50.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 1Muda wa majibu (wastani)551msMuda wa majibu (upeo)622msMuda wa majibu (jumla)1.10sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
551msMuda wa majibu (wastani)…
82Tokeni za matokeo…
0Tokeni za hoja…
xAI: Grok 4.1 Fast
5.5Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
50.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakufuata maelekezo: 1Muda wa majibu (wastani)5.30sMuda wa majibu (upeo)5.30sMuda wa majibu (jumla)5.30sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
5.30sMuda wa majibu (wastani)…
55Tokeni za matokeo…
3,489Tokeni za hoja…
Puzzle Solving
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
Inception: Mercury 2
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
0.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 3Muda wa majibu (wastani)533msMuda wa majibu (upeo)637msMuda wa majibu (jumla)1.60sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
533msMuda wa majibu (wastani)…
234Tokeni za matokeo…
0Tokeni za hoja…
xAI: Grok 4.1 Fast
4.0Wastani wa alama katika majaribio yote ya benchmark.…
7.2Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
44.4%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakufuata maelekezo: 1Jibu lisilo sahihi: 1Muda wa majibu (wastani)8.08sMuda wa majibu (upeo)8.38sMuda wa majibu (jumla)16.17sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
8.08sMuda wa majibu (wastani)…
187Tokeni za matokeo…
6,086Tokeni za hoja…
Mwito wa zana
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
Inception: Mercury 2
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)1.27sMuda wa majibu (upeo)1.27sMuda wa majibu (jumla)1.27sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
1.27sMuda wa majibu (wastani)…
197Tokeni za matokeo…
0Tokeni za hoja…
xAI: Grok 4.1 Fast
10.0Wastani wa alama katika majaribio yote ya benchmark.…
1.6Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
33.3%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna jibu: 1Muda wa majibu (wastani)27.71sMuda wa majibu (upeo)27.71sMuda wa majibu (jumla)27.71sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…