Ulinganisho wa benchmark Grok 4.20 vs Grok 4.20 Beta vs Grok 4.3Grok 4.3 inaongoza kwenye Alama kwa 7.7. Grok 4.20 inaongoza kwenye Uaminifu kwa 10.0. Grok 4.20 ina Jumla ya gharama ya chini zaidi kwa $0.609. Grok 4.20 Beta ndiyo ya haraka zaidi kwa 9.75s.
Muundo unaopendekezwa: Grok 4.20 Beta - It offers the best overall trade-off: a competitive score (6.8), faster response than miundo mingine katika ulinganisho huu, and balanced cost.
Benchmark zimetengenezwa kutoka seti za majaribio za AI BENCHY tarehe: 2026-06-17
7.3Wastani wa alama katika majaribio yote ya benchmark.โฆ
6.8Wastani wa alama katika majaribio yote ya benchmark.โฆ
7.7Wastani wa alama katika majaribio yote ya benchmark.โฆ
Nafasi
#53
#69
#37
Uaminifu
10.0Alama ya mafanikio ya jaribio la kwanza: 10.0 humaanisha hakuna hitilafu za API lengwa au kikomo cha kasi zinazoweza kujaribiwa tena kabla ya miito iliyofanikiwa; hitilafu zilizorekodiwa hushusha alama.โฆ
HaipoAlama ya mafanikio ya jaribio la kwanza: 10.0 humaanisha hakuna hitilafu za API lengwa au kikomo cha kasi zinazoweza kujaribiwa tena kabla ya miito iliyofanikiwa; hitilafu zilizorekodiwa hushusha alama.โฆ
10.0Alama ya mafanikio ya jaribio la kwanza: 10.0 humaanisha hakuna hitilafu za API lengwa au kikomo cha kasi zinazoweza kujaribiwa tena kabla ya miito iliyofanikiwa; hitilafu zilizorekodiwa hushusha alama.โฆ
Uthabiti
8.8Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
8.2Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
8.5Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
Majaribio sahihi
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 6Hakufuata maelekezo: 2Muundo wa ziada: 1Muda wa majibu (wastani)27.68sMuda wa majibu (upeo)199.66sMuda wa majibu (jumla)581.26sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 3Hakufuata maelekezo: 1Muda wa majibu (wastani)9.75sMuda wa majibu (upeo)31.36sMuda wa majibu (jumla)175.48sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 5Hakufuata maelekezo: 2Muundo wa ziada: 1Muda wa majibu (wastani)47.51sMuda wa majibu (upeo)216.69sMuda wa majibu (jumla)997.68sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
Kiwango cha kupita kwa kila jaribio
63.5%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
69.8%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
71.4%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
Majaribio yasiyo thabiti
3Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
4Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jumla ya uendeshaji
63Jumla ya uendeshajiโฆ
52Jumla ya uendeshajiโฆ
63Jumla ya uendeshajiโฆ
Gharama kwa matokeo
8.309Huonyesha gharama ya wastani kwa kila jibu sahihi la benchmark kwa senti (kadri ilivyo ndogo, ndivyo bora).โฆ
4.505Huonyesha gharama ya wastani kwa kila jibu sahihi la benchmark kwa senti (kadri ilivyo ndogo, ndivyo bora).โฆ
4.724Huonyesha gharama ya wastani kwa kila jibu sahihi la benchmark kwa senti (kadri ilivyo ndogo, ndivyo bora).โฆ
Jumla ya gharama
$0.609Jumla ya gharama (bei ya sasa)โฆ
$0.750Jumla ya gharama (bei ya sasa)โฆ
$0.614Jumla ya gharama (bei ya sasa)โฆ
Bei ya ingizo
$1.250 / 1MBei ya ingizoโฆ
$5.805 / 1MBei ya ingizoโฆ
$1.250 / 1MBei ya ingizoโฆ
Bei ya toleo
$2.500 / 1MBei ya toleoโฆ
$5.805 / 1MBei ya toleoโฆ
$2.500 / 1MBei ya toleoโฆ
Jumla ya tokeni za ingizo
44,433Jumla ya tokeni za ingizoโฆ
35,955Jumla ya tokeni za ingizoโฆ
44,472Jumla ya tokeni za ingizoโฆ
Tokeni za matokeo
1,819Tokeni za matokeoโฆ
1,647Tokeni za matokeoโฆ
1,981Tokeni za matokeoโฆ
Tokeni za hoja
219,524Tokeni za hojaโฆ
91,565Tokeni za hojaโฆ
221,382Tokeni za hojaโฆ
Muda wa majibu (wastani)
27.68sMuda wa majibu (wastani)โฆ
9.75sMuda wa majibu (wastani)โฆ
47.51sMuda wa majibu (wastani)โฆ
Muda wa majibu (upeo)
199.66sMuda wa majibu (upeo)โฆ
31.36sMuda wa majibu (upeo)โฆ
216.69sMuda wa majibu (upeo)โฆ
Muda wa majibu (jumla)
581.26sMuda wa majibu (jumla)โฆ
175.48sMuda wa majibu (jumla)โฆ
997.68sMuda wa majibu (jumla)โฆ
Generation showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
8.2Wastani wa alama katika majaribio yote ya benchmark.โฆ
7.9Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
83.3%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 1Muda wa majibu (wastani)3.95sMuda wa majibu (upeo)5.68sMuda wa majibu (jumla)15.80sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
3.95sMuda wa majibu (wastani)โฆ
2,010Jumla ya tokeni za ingizoโฆ
287Tokeni za matokeoโฆ
8,312Tokeni za hojaโฆ
Grok 4.20 BetaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
8.7Wastani wa alama katika majaribio yote ya benchmark.โฆ
7.9Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
91.7%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 1Muda wa majibu (wastani)3.16sMuda wa majibu (upeo)3.44sMuda wa majibu (jumla)12.65sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
10.0Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)8.83sMuda wa majibu (upeo)11.20sMuda wa majibu (jumla)35.31sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
6.3Wastani wa alama katika majaribio yote ya benchmark.โฆ
6.6Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
55.6%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 2Muda wa majibu (wastani)109.93sMuda wa majibu (upeo)199.66sMuda wa majibu (jumla)329.79sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
109.93sMuda wa majibu (wastani)โฆ
8,307Jumla ya tokeni za ingizoโฆ
268Tokeni za matokeoโฆ
103,150Tokeni za hojaโฆ
Grok 4.20 BetaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
3.3Wastani wa alama katika majaribio yote ya benchmark.โฆ
3.3Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
33.3%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)31.36sMuda wa majibu (upeo)31.36sMuda wa majibu (jumla)31.36sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
5.9Wastani wa alama katika majaribio yote ya benchmark.โฆ
7.7Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
44.4%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Muundo wa ziada: 1Jibu lisilo sahihi: 1Muda wa majibu (wastani)41.23sMuda wa majibu (upeo)64.81sMuda wa majibu (jumla)123.69sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
10.0Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)17.40sMuda wa majibu (upeo)17.40sMuda wa majibu (jumla)17.40sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
17.40sMuda wa majibu (wastani)โฆ
12,909Jumla ya tokeni za ingizoโฆ
232Tokeni za matokeoโฆ
9,556Tokeni za hojaโฆ
Grok 4.20 BetaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
10.0Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)20.93sMuda wa majibu (upeo)20.93sMuda wa majibu (jumla)20.93sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
10.0Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)63.99sMuda wa majibu (upeo)63.99sMuda wa majibu (jumla)63.99sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
10.0Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)4.17sMuda wa majibu (upeo)5.02sMuda wa majibu (jumla)8.34sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
4.17sMuda wa majibu (wastani)โฆ
7,761Jumla ya tokeni za ingizoโฆ
180Tokeni za matokeoโฆ
5,333Tokeni za hojaโฆ
Grok 4.20 BetaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
10.0Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)4.01sMuda wa majibu (upeo)4.27sMuda wa majibu (jumla)8.02sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
10.0Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)18.97sMuda wa majibu (upeo)26.99sMuda wa majibu (jumla)37.93sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
5.3Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
33.3%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Muundo wa ziada: 1Jibu lisilo sahihi: 1Muda wa majibu (wastani)27.03sMuda wa majibu (upeo)29.87sMuda wa majibu (jumla)81.10sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
27.03sMuda wa majibu (wastani)โฆ
1,764Jumla ya tokeni za ingizoโฆ
375Tokeni za matokeoโฆ
49,339Tokeni za hojaโฆ
Grok 4.20 BetaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
5.3Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
33.3%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 2Muda wa majibu (wastani)21.33sMuda wa majibu (upeo)24.21sMuda wa majibu (jumla)64.00sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
5.3Wastani wa alama katika majaribio yote ya benchmark.โฆ
7.2Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
44.4%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 2Muda wa majibu (wastani)181.74sMuda wa majibu (upeo)216.69sMuda wa majibu (jumla)545.21sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
3.9Wastani wa alama katika majaribio yote ya benchmark.โฆ
2.6Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
33.3%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakufuata maelekezo: 1Muda wa majibu (wastani)24.48sMuda wa majibu (upeo)24.48sMuda wa majibu (jumla)24.48sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
24.48sMuda wa majibu (wastani)โฆ
825Jumla ya tokeni za ingizoโฆ
65Tokeni za matokeoโฆ
6,440Tokeni za hojaโฆ
Grok 4.20 BetaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
10.0Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)5.78sMuda wa majibu (upeo)5.78sMuda wa majibu (jumla)5.78sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
5.4Wastani wa alama katika majaribio yote ya benchmark.โฆ
2.5Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
66.7%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakufuata maelekezo: 1Muda wa majibu (wastani)24.70sMuda wa majibu (upeo)24.70sMuda wa majibu (jumla)24.70sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
9.8Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)4.26sMuda wa majibu (upeo)4.46sMuda wa majibu (jumla)8.52sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
4.26sMuda wa majibu (wastani)โฆ
1,362Jumla ya tokeni za ingizoโฆ
57Tokeni za matokeoโฆ
6,419Tokeni za hojaโฆ
Grok 4.20 BetaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
9.8Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)4.89sMuda wa majibu (upeo)5.89sMuda wa majibu (jumla)9.78sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
9.8Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)18.58sMuda wa majibu (upeo)31.48sMuda wa majibu (jumla)37.15sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
7.7Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
66.7%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 1Muda wa majibu (wastani)6.22sMuda wa majibu (upeo)11.63sMuda wa majibu (jumla)18.66sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
6.22sMuda wa majibu (wastani)โฆ
1,689Jumla ya tokeni za ingizoโฆ
149Tokeni za matokeoโฆ
7,913Tokeni za hojaโฆ
Grok 4.20 BetaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
10.0Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)3.52sMuda wa majibu (upeo)4.53sMuda wa majibu (jumla)10.57sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
5.9Wastani wa alama katika majaribio yote ya benchmark.โฆ
7.2Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
55.6%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakufuata maelekezo: 1Jibu lisilo sahihi: 1Muda wa majibu (wastani)22.52sMuda wa majibu (upeo)51.75sMuda wa majibu (jumla)67.57sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
3.0Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
0.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakufuata maelekezo: 1Muda wa majibu (wastani)13.68sMuda wa majibu (upeo)13.68sMuda wa majibu (jumla)13.68sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
13.68sMuda wa majibu (wastani)โฆ
7,275Jumla ya tokeni za ingizoโฆ
197Tokeni za matokeoโฆ
6,620Tokeni za hojaโฆ
Grok 4.20 BetaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
3.0Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
0.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakufuata maelekezo: 1Muda wa majibu (wastani)12.39sMuda wa majibu (upeo)12.39sMuda wa majibu (jumla)12.39sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
10.0Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)17.66sMuda wa majibu (upeo)17.66sMuda wa majibu (jumla)17.66sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
3.0Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
0.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 1Muda wa majibu (wastani)63.48sMuda wa majibu (upeo)63.48sMuda wa majibu (jumla)63.48sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
63.48sMuda wa majibu (wastani)โฆ
531Jumla ya tokeni za ingizoโฆ
9Tokeni za matokeoโฆ
16,442Tokeni za hojaโฆ
Grok 4.20 BetaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
0.0Wastani wa alama katika majaribio yote ya benchmark.โฆ
0.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
0.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)0msMuda wa majibu (upeo)0msMuda wa majibu (jumla)0msJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
3.0Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
0.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 1Muda wa majibu (wastani)44.47sMuda wa majibu (upeo)44.47sMuda wa majibu (jumla)44.47sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ