Benchmark zimetengenezwa kutoka seti za majaribio za AI BENCHY tarehe: 2026-05-26
Kipimo
Grok 4.20 BetaGrok 4.20 BetamediumModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.Toleo: 2026-03-12
Grok 4.1 FastGrok 4.1 FastmediumModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.Toleo: 2025-11-19
Hunter AlphaHunter AlphamediumModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.Toleo: 2026-03-11
Kipimo
Grok 4.20 BetaGrok 4.20 BetamediumModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.Toleo: 2026-03-12
Grok 4.1 FastGrok 4.1 FastmediumModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.Toleo: 2025-11-19
Hunter AlphaHunter AlphamediumModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.Toleo: 2026-03-11
Alama
8.5Wastani wa alama katika majaribio yote ya benchmark.โฆ
6.5Wastani wa alama katika majaribio yote ya benchmark.โฆ
6.7Wastani wa alama katika majaribio yote ya benchmark.โฆ
Nafasi
#14
#88
#76
Uaminifu
HaipoAlama ya mafanikio ya jaribio la kwanza: 10.0 humaanisha hakuna hitilafu za API lengwa au kikomo cha kasi zinazoweza kujaribiwa tena kabla ya miito iliyofanikiwa; hitilafu zilizorekodiwa hushusha alama.โฆ
10.0Alama ya mafanikio ya jaribio la kwanza: 10.0 humaanisha hakuna hitilafu za API lengwa au kikomo cha kasi zinazoweza kujaribiwa tena kabla ya miito iliyofanikiwa; hitilafu zilizorekodiwa hushusha alama.โฆ
HaipoAlama ya mafanikio ya jaribio la kwanza: 10.0 humaanisha hakuna hitilafu za API lengwa au kikomo cha kasi zinazoweza kujaribiwa tena kabla ya miito iliyofanikiwa; hitilafu zilizorekodiwa hushusha alama.โฆ
Uthabiti
9.5Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
7.3Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
7.4Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
Majaribio sahihi
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 3Hakufuata maelekezo: 1Muda wa majibu (wastani)9.75sMuda wa majibu (upeo)31.36sMuda wa majibu (jumla)175.48sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakufuata maelekezo: 4Jibu lisilo sahihi: 4Hakuna jibu: 1Muda umeisha: 1Muda wa majibu (wastani)23.85sMuda wa majibu (upeo)121.79sMuda wa majibu (jumla)286.16sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
81.5%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
61.4%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
64.8%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
Majaribio yasiyo thabiti
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
6Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
6Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jumla ya uendeshaji
128Jumla ya uendeshajiโฆ
133Jumla ya uendeshajiโฆ
90Jumla ya uendeshajiโฆ
Gharama kwa matokeo
8.557Huonyesha gharama ya wastani kwa kila jibu sahihi la benchmark kwa senti (kadri ilivyo ndogo, ndivyo bora).โฆ
0.926Huonyesha gharama ya wastani kwa kila jibu sahihi la benchmark kwa senti (kadri ilivyo ndogo, ndivyo bora).โฆ
0.000Huonyesha gharama ya wastani kwa kila jibu sahihi la benchmark kwa senti (kadri ilivyo ndogo, ndivyo bora).โฆ
Jumla ya gharama
$1.198Jumla ya gharamaโฆ
$0.084Jumla ya gharamaโฆ
$0.000Jumla ya gharamaโฆ
Bei ya ingizo
$0.000 / 1MBei ya ingizoโฆ
$0.000 / 1MBei ya ingizoโฆ
$0.000 / 1MBei ya ingizoโฆ
Bei ya toleo
$0.000 / 1MBei ya toleoโฆ
$0.000 / 1MBei ya toleoโฆ
$0.000 / 1MBei ya toleoโฆ
Tokeni za matokeo
4,915Tokeni za matokeoโฆ
3,298Tokeni za matokeoโฆ
6,506Tokeni za matokeoโฆ
Tokeni za hoja
177,787Tokeni za hojaโฆ
139,122Tokeni za hojaโฆ
24,809Tokeni za hojaโฆ
Muda wa majibu (wastani)
9.75sMuda wa majibu (wastani)โฆ
23.85sMuda wa majibu (wastani)โฆ
10.33sMuda wa majibu (wastani)โฆ
Muda wa majibu (upeo)
31.36sMuda wa majibu (upeo)โฆ
121.79sMuda wa majibu (upeo)โฆ
30.53sMuda wa majibu (upeo)โฆ
Muda wa majibu (jumla)
175.48sMuda wa majibu (jumla)โฆ
286.16sMuda wa majibu (jumla)โฆ
175.58sMuda wa majibu (jumla)โฆ
Modeli bora kwa alama
Alama dhidi ya gharama ya jumla
Muda wa majibu (wastani)
Alama vs Muda wa majibu (wastani)
Jumla ya tokeni za matokeo
Alama vs Jumla ya tokeni za matokeo
Mgawanyo wa kategoria
Mbinu za kupinga AI
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
Grok 4.20 BetaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
8.7Wastani wa alama katika majaribio yote ya benchmark.โฆ
7.9Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
91.7%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 1Muda wa majibu (wastani)3.16sMuda wa majibu (upeo)3.44sMuda wa majibu (jumla)12.65sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
3.16sMuda wa majibu (wastani)โฆ
268Tokeni za matokeoโฆ
7,583Tokeni za hojaโฆ
Grok 4.1 FastModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
8.7Wastani wa alama katika majaribio yote ya benchmark.โฆ
7.9Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
91.7%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 1Muda wa majibu (wastani)3.81sMuda wa majibu (upeo)5.65sMuda wa majibu (jumla)7.62sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
3.81sMuda wa majibu (wastani)โฆ
108Tokeni za matokeoโฆ
4,741Tokeni za hojaโฆ
Hunter AlphaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
7.3Wastani wa alama katika majaribio yote ya benchmark.โฆ
5.8Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
83.3%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
2Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 2Muda wa majibu (wastani)4.75sMuda wa majibu (upeo)7.62sMuda wa majibu (jumla)19.00sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
4.75sMuda wa majibu (wastani)โฆ
479Tokeni za matokeoโฆ
1,103Tokeni za hojaโฆ
Uandishi wa msimbo
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
Grok 4.20 BetaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
10.0Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)31.36sMuda wa majibu (upeo)31.36sMuda wa majibu (jumla)31.36sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
31.36sMuda wa majibu (wastani)โฆ
81Tokeni za matokeoโฆ
3,987Tokeni za hojaโฆ
Grok 4.1 FastModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
2.3Wastani wa alama katika majaribio yote ya benchmark.โฆ
1.1Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
33.3%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakufuata maelekezo: 1Muda wa majibu (wastani)23.58sMuda wa majibu (upeo)23.58sMuda wa majibu (jumla)23.58sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
23.58sMuda wa majibu (wastani)โฆ
821Tokeni za matokeoโฆ
6,703Tokeni za hojaโฆ
Hunter AlphaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
3.0Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
0.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hitilafu ya API: 1Muda wa majibu (wastani)0msMuda wa majibu (upeo)0msMuda wa majibu (jumla)0msJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
0msMuda wa majibu (wastani)โฆ
0Tokeni za matokeoโฆ
0Tokeni za hojaโฆ
Mchanganyiko
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
Grok 4.20 BetaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
10.0Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)20.93sMuda wa majibu (upeo)20.93sMuda wa majibu (jumla)20.93sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
20.93sMuda wa majibu (wastani)โฆ
227Tokeni za matokeoโฆ
12,212Tokeni za hojaโฆ
Grok 4.1 FastModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
10.0Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)37.64sMuda wa majibu (upeo)37.64sMuda wa majibu (jumla)37.64sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
37.64sMuda wa majibu (wastani)โฆ
261Tokeni za matokeoโฆ
12,272Tokeni za hojaโฆ
Hunter AlphaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
4.7Wastani wa alama katika majaribio yote ya benchmark.โฆ
1.6Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
66.7%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Muda umeisha: 1Muda wa majibu (wastani)30.53sMuda wa majibu (upeo)30.53sMuda wa majibu (jumla)30.53sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
30.53sMuda wa majibu (wastani)โฆ
792Tokeni za matokeoโฆ
3,456Tokeni za hojaโฆ
Uchanganuzi na uchimbaji wa data
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
Grok 4.20 BetaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
10.0Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)4.01sMuda wa majibu (upeo)4.27sMuda wa majibu (jumla)8.02sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
4.01sMuda wa majibu (wastani)โฆ
180Tokeni za matokeoโฆ
5,281Tokeni za hojaโฆ
Grok 4.1 FastModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
10.0Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)6.63sMuda wa majibu (upeo)6.63sMuda wa majibu (jumla)6.63sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
6.63sMuda wa majibu (wastani)โฆ
180Tokeni za matokeoโฆ
5,409Tokeni za hojaโฆ
Hunter AlphaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
10.0Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)23.16sMuda wa majibu (upeo)26.55sMuda wa majibu (jumla)46.33sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
23.16sMuda wa majibu (wastani)โฆ
1,488Tokeni za matokeoโฆ
8,017Tokeni za hojaโฆ
Mahususi kwa domeni
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
Grok 4.20 BetaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
5.3Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
33.3%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 2Muda wa majibu (wastani)21.33sMuda wa majibu (upeo)24.21sMuda wa majibu (jumla)64.00sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
21.33sMuda wa majibu (wastani)โฆ
251Tokeni za matokeoโฆ
40,255Tokeni za hojaโฆ
Grok 4.1 FastModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
5.8Wastani wa alama katika majaribio yote ya benchmark.โฆ
4.4Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
66.7%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
2Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Muda umeisha: 1Jibu lisilo sahihi: 1Muda wa majibu (wastani)121.79sMuda wa majibu (upeo)121.79sMuda wa majibu (jumla)121.79sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
121.79sMuda wa majibu (wastani)โฆ
11Tokeni za matokeoโฆ
37,657Tokeni za hojaโฆ
Hunter AlphaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
3.0Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
0.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Muundo wa ziada: 1Muda umeisha: 1Jibu lisilo sahihi: 1Muda wa majibu (wastani)10.52sMuda wa majibu (upeo)18.68sMuda wa majibu (jumla)31.56sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
10.52sMuda wa majibu (wastani)โฆ
892Tokeni za matokeoโฆ
2,406Tokeni za hojaโฆ
Akili ya jumla
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
Grok 4.20 BetaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
10.0Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)5.78sMuda wa majibu (upeo)5.78sMuda wa majibu (jumla)5.78sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
5.78sMuda wa majibu (wastani)โฆ
72Tokeni za matokeoโฆ
3,440Tokeni za hojaโฆ
Grok 4.1 FastModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
4.2Wastani wa alama katika majaribio yote ya benchmark.โฆ
9.9Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
0.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakufuata maelekezo: 1Muda wa majibu (wastani)16.25sMuda wa majibu (upeo)16.25sMuda wa majibu (jumla)16.25sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
16.25sMuda wa majibu (wastani)โฆ
127Tokeni za matokeoโฆ
3,456Tokeni za hojaโฆ
Hunter AlphaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
7.0Wastani wa alama katika majaribio yote ya benchmark.โฆ
3.7Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
66.7%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakufuata maelekezo: 1Muda wa majibu (wastani)6.44sMuda wa majibu (upeo)6.44sMuda wa majibu (jumla)6.44sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
6.44sMuda wa majibu (wastani)โฆ
116Tokeni za matokeoโฆ
260Tokeni za hojaโฆ
Ufuataji wa maagizo
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
Grok 4.20 BetaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
9.8Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)4.89sMuda wa majibu (upeo)5.89sMuda wa majibu (jumla)9.78sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
4.89sMuda wa majibu (wastani)โฆ
703Tokeni za matokeoโฆ
67,771Tokeni za hojaโฆ
Grok 4.1 FastModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
6.5Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
50.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakufuata maelekezo: 1Muda wa majibu (wastani)4.63sMuda wa majibu (upeo)4.63sMuda wa majibu (jumla)4.63sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
4.63sMuda wa majibu (wastani)โฆ
662Tokeni za matokeoโฆ
21,680Tokeni za hojaโฆ
Hunter AlphaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
9.9Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)4.18sMuda wa majibu (upeo)4.46sMuda wa majibu (jumla)8.36sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
4.18sMuda wa majibu (wastani)โฆ
208Tokeni za matokeoโฆ
465Tokeni za hojaโฆ
Utatuzi wa mafumbo
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
Grok 4.20 BetaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
10.0Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)3.52sMuda wa majibu (upeo)4.53sMuda wa majibu (jumla)10.57sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
3.52sMuda wa majibu (wastani)โฆ
2,950Tokeni za matokeoโฆ
31,874Tokeni za hojaโฆ
Grok 4.1 FastModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
5.3Wastani wa alama katika majaribio yote ya benchmark.โฆ
7.2Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
44.4%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakufuata maelekezo: 1Jibu lisilo sahihi: 1Muda wa majibu (wastani)7.40sMuda wa majibu (upeo)7.79sMuda wa majibu (jumla)14.81sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
7.40sMuda wa majibu (wastani)โฆ
853Tokeni za matokeoโฆ
30,338Tokeni za hojaโฆ
Hunter AlphaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
6.1Wastani wa alama katika majaribio yote ya benchmark.โฆ
4.7Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
66.7%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
2Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakufuata maelekezo: 1Jibu lisilo sahihi: 1Muda wa majibu (wastani)5.35sMuda wa majibu (upeo)6.20sMuda wa majibu (jumla)16.06sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
5.35sMuda wa majibu (wastani)โฆ
2,223Tokeni za matokeoโฆ
8,198Tokeni za hojaโฆ
Mwito wa zana
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
Grok 4.20 BetaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
3.0Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
0.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakufuata maelekezo: 1Muda wa majibu (wastani)12.39sMuda wa majibu (upeo)12.39sMuda wa majibu (jumla)12.39sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
12.39sMuda wa majibu (wastani)โฆ
183Tokeni za matokeoโฆ
5,384Tokeni za hojaโฆ
Grok 4.1 FastModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
2.8Wastani wa alama katika majaribio yote ya benchmark.โฆ
1.6Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
33.3%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna jibu: 1Muda wa majibu (wastani)27.71sMuda wa majibu (upeo)27.71sMuda wa majibu (jumla)27.71sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
27.71sMuda wa majibu (wastani)โฆ
260Tokeni za matokeoโฆ
11,485Tokeni za hojaโฆ
Hunter AlphaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
10.0Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)17.33sMuda wa majibu (upeo)17.33sMuda wa majibu (jumla)17.33sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
17.33sMuda wa majibu (wastani)โฆ
308Tokeni za matokeoโฆ
904Tokeni za hojaโฆ
Maarifa ya jumla
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
Grok 4.20 BetaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
-
-
-
-
-
-
-
-
Grok 4.1 FastModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
3.0Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
0.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 1Muda wa majibu (wastani)25.52sMuda wa majibu (upeo)25.52sMuda wa majibu (jumla)25.52sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
25.52sMuda wa majibu (wastani)โฆ
15Tokeni za matokeoโฆ
5,381Tokeni za hojaโฆ
Hunter AlphaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.