Ulinganisho wa benchmark Grok 4.20 Beta vs Grok 4.20 Multi Agent Beta vs Grok 4.1 Fast vs Gemini 3 Flash PreviewGemini 3 Flash Preview inaongoza kwenye Alama kwa 9.6. Grok 4.1 Fast inaongoza kwenye Uaminifu kwa 10.0. Grok 4.1 Fast ina Jumla ya gharama ya chini zaidi kwa $0.069. Grok 4.20 Multi Agent Beta ndiyo ya haraka zaidi kwa 9.69s.
Muundo unaopendekezwa: Gemini 3 Flash Preview - It has the best score here (9.6), while costing about 3.2x less than miundo mingine katika ulinganisho huu.
Benchmark zimetengenezwa kutoka seti za majaribio za AI BENCHY tarehe: 2026-06-12
Kipimo
Grok 4.20 BetaGrok 4.20 BetamediumModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.Toleo: 2026-03-12
9.2Wastani wa alama katika majaribio yote ya benchmark.โฆ
7.3Wastani wa alama katika majaribio yote ya benchmark.โฆ
6.0Wastani wa alama katika majaribio yote ya benchmark.โฆ
9.6Wastani wa alama katika majaribio yote ya benchmark.โฆ
Nafasi
#8
#57
#105
#2
Uaminifu
HaipoAlama ya mafanikio ya jaribio la kwanza: 10.0 humaanisha hakuna hitilafu za API lengwa au kikomo cha kasi zinazoweza kujaribiwa tena kabla ya miito iliyofanikiwa; hitilafu zilizorekodiwa hushusha alama.โฆ
HaipoAlama ya mafanikio ya jaribio la kwanza: 10.0 humaanisha hakuna hitilafu za API lengwa au kikomo cha kasi zinazoweza kujaribiwa tena kabla ya miito iliyofanikiwa; hitilafu zilizorekodiwa hushusha alama.โฆ
10.0Alama ya mafanikio ya jaribio la kwanza: 10.0 humaanisha hakuna hitilafu za API lengwa au kikomo cha kasi zinazoweza kujaribiwa tena kabla ya miito iliyofanikiwa; hitilafu zilizorekodiwa hushusha alama.โฆ
10.0Alama ya mafanikio ya jaribio la kwanza: 10.0 humaanisha hakuna hitilafu za API lengwa au kikomo cha kasi zinazoweza kujaribiwa tena kabla ya miito iliyofanikiwa; hitilafu zilizorekodiwa hushusha alama.โฆ
Uthabiti
9.5Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
7.9Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
7.3Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
9.7Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
Majaribio sahihi
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 3Hakufuata maelekezo: 1Muda wa majibu (wastani)9.75sMuda wa majibu (upeo)31.36sMuda wa majibu (jumla)175.48sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 4Hitilafu ya API: 2Muundo wa ziada: 2Hakufuata maelekezo: 2Muda wa majibu (wastani)9.69sMuda wa majibu (upeo)35.28sMuda wa majibu (jumla)155.07sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakufuata maelekezo: 4Jibu lisilo sahihi: 4Hakuna jibu: 1Muda umeisha: 1Muda wa majibu (wastani)23.85sMuda wa majibu (upeo)121.79sMuda wa majibu (jumla)286.16sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 1Muda wa majibu (wastani)18.64sMuda wa majibu (upeo)117.26sMuda wa majibu (jumla)391.35sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
Kiwango cha kupita kwa kila jaribio
81.5%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
59.3%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
61.4%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
98.4%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
Majaribio yasiyo thabiti
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
5Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
6Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jumla ya uendeshaji
52Jumla ya uendeshajiโฆ
52Jumla ya uendeshajiโฆ
57Jumla ya uendeshajiโฆ
63Jumla ya uendeshajiโฆ
Gharama kwa matokeo
4.505Huonyesha gharama ya wastani kwa kila jibu sahihi la benchmark kwa senti (kadri ilivyo ndogo, ndivyo bora).โฆ
62.923Huonyesha gharama ya wastani kwa kila jibu sahihi la benchmark kwa senti (kadri ilivyo ndogo, ndivyo bora).โฆ
0.642Huonyesha gharama ya wastani kwa kila jibu sahihi la benchmark kwa senti (kadri ilivyo ndogo, ndivyo bora).โฆ
3.335Huonyesha gharama ya wastani kwa kila jibu sahihi la benchmark kwa senti (kadri ilivyo ndogo, ndivyo bora).โฆ
Jumla ya gharama
$0.750Jumla ya gharama (bei ya sasa)โฆ
$5.599Jumla ya gharama (bei ya sasa)โฆ
$0.069Jumla ya gharama (bei ya sasa)โฆ
$0.667Jumla ya gharama (bei ya sasa)โฆ
Bei ya ingizo
$5.805 / 1MBei ya ingizoโฆ
$4.235 / 1MBei ya ingizoโฆ
$0.484 / 1MBei ya ingizoโฆ
$0.500 / 1MBei ya ingizoโฆ
Bei ya toleo
$5.805 / 1MBei ya toleoโฆ
$4.235 / 1MBei ya toleoโฆ
$0.484 / 1MBei ya toleoโฆ
$3.000 / 1MBei ya toleoโฆ
Jumla ya tokeni za ingizo
35,955Jumla ya tokeni za ingizoโฆ
721,952Jumla ya tokeni za ingizoโฆ
42,845Jumla ya tokeni za ingizoโฆ
37,017Jumla ya tokeni za ingizoโฆ
Tokeni za matokeo
1,647Tokeni za matokeoโฆ
294,668Tokeni za matokeoโฆ
2,006Tokeni za matokeoโฆ
2,006Tokeni za matokeoโฆ
Tokeni za hoja
91,565Tokeni za hojaโฆ
305,374Tokeni za hojaโฆ
96,334Tokeni za hojaโฆ
214,153Tokeni za hojaโฆ
Muda wa majibu (wastani)
9.75sMuda wa majibu (wastani)โฆ
9.69sMuda wa majibu (wastani)โฆ
23.85sMuda wa majibu (wastani)โฆ
18.64sMuda wa majibu (wastani)โฆ
Muda wa majibu (upeo)
31.36sMuda wa majibu (upeo)โฆ
35.28sMuda wa majibu (upeo)โฆ
121.79sMuda wa majibu (upeo)โฆ
117.26sMuda wa majibu (upeo)โฆ
Muda wa majibu (jumla)
175.48sMuda wa majibu (jumla)โฆ
155.07sMuda wa majibu (jumla)โฆ
286.16sMuda wa majibu (jumla)โฆ
391.35sMuda wa majibu (jumla)โฆ
Generation showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
#8 Grok 4.20 Beta
medium
Cost
$0.034
Time
91.0s
Tokens
13,523 tok
#57 Grok 4.20 Multi Agent Beta
medium
Cost
$0.261
Time
123.4s
Tokens
199,344 tok
#105 Grok 4.1 Fast
medium
Grok 4.1 Fast is deprecated. xAI recommends switching to Grok 4.3 (https://openrouter.ai/x-ai/grok-4.3)
Cost
$0.000
Time
0.1s
Tokens
0 tok
#2 Gemini 3 Flash Preview
medium
Cost
$0.010
Time
17.9s
Tokens
3,236 tok
Alama
-
Cost
-
Time
-
Tokens
-
Modeli bora kwa alama
Alama dhidi ya gharama ya jumla
Muda wa majibu (wastani)
Alama vs Muda wa majibu (wastani)
Jumla ya tokeni za matokeo
Alama vs Jumla ya tokeni za matokeo
Mgawanyo wa kategoria
Mbinu za kupinga AI
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za ingizo
Tokeni za matokeo
Tokeni za hoja
Grok 4.20 BetaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
8.7Wastani wa alama katika majaribio yote ya benchmark.โฆ
7.9Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
91.7%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 1Muda wa majibu (wastani)3.16sMuda wa majibu (upeo)3.44sMuda wa majibu (jumla)12.65sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
3.16sMuda wa majibu (wastani)โฆ
2,010Jumla ya tokeni za ingizoโฆ
268Tokeni za matokeoโฆ
7,583Tokeni za hojaโฆ
Grok 4.20 Multi Agent BetaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
6.9Wastani wa alama katika majaribio yote ya benchmark.โฆ
5.8Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
75.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
2Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Muundo wa ziada: 1Jibu lisilo sahihi: 1Muda wa majibu (wastani)3.46sMuda wa majibu (upeo)4.38sMuda wa majibu (jumla)13.86sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
3.46sMuda wa majibu (wastani)โฆ
90,925Jumla ya tokeni za ingizoโฆ
33,706Tokeni za matokeoโฆ
33,077Tokeni za hojaโฆ
Grok 4.1 FastModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
8.7Wastani wa alama katika majaribio yote ya benchmark.โฆ
7.9Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
91.7%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 1Muda wa majibu (wastani)3.81sMuda wa majibu (upeo)5.65sMuda wa majibu (jumla)7.62sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
10.0Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)3.88sMuda wa majibu (upeo)5.73sMuda wa majibu (jumla)15.53sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
3.88sMuda wa majibu (wastani)โฆ
494Jumla ya tokeni za ingizoโฆ
330Tokeni za matokeoโฆ
3,216Tokeni za hojaโฆ
Uandishi wa msimbo
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za ingizo
Tokeni za matokeo
Tokeni za hoja
Grok 4.20 BetaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
10.0Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)31.36sMuda wa majibu (upeo)31.36sMuda wa majibu (jumla)31.36sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
31.36sMuda wa majibu (wastani)โฆ
360Jumla ya tokeni za ingizoโฆ
81Tokeni za matokeoโฆ
3,987Tokeni za hojaโฆ
Grok 4.20 Multi Agent BetaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
10.0Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)27.11sMuda wa majibu (upeo)27.11sMuda wa majibu (jumla)27.11sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
27.11sMuda wa majibu (wastani)โฆ
13,212Jumla ya tokeni za ingizoโฆ
86Tokeni za matokeoโฆ
13,141Tokeni za hojaโฆ
Grok 4.1 FastModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
2.3Wastani wa alama katika majaribio yote ya benchmark.โฆ
1.1Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
33.3%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakufuata maelekezo: 1Muda wa majibu (wastani)23.58sMuda wa majibu (upeo)23.58sMuda wa majibu (jumla)23.58sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
8.6Wastani wa alama katika majaribio yote ya benchmark.โฆ
7.6Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
88.9%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 1Muda wa majibu (wastani)84.40sMuda wa majibu (upeo)117.26sMuda wa majibu (jumla)253.21sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
84.40sMuda wa majibu (wastani)โฆ
8,122Jumla ya tokeni za ingizoโฆ
462Tokeni za matokeoโฆ
161,084Tokeni za hojaโฆ
Mchanganyiko
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za ingizo
Tokeni za matokeo
Tokeni za hoja
Grok 4.20 BetaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
10.0Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)20.93sMuda wa majibu (upeo)20.93sMuda wa majibu (jumla)20.93sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
20.93sMuda wa majibu (wastani)โฆ
12,909Jumla ya tokeni za ingizoโฆ
227Tokeni za matokeoโฆ
12,212Tokeni za hojaโฆ
Grok 4.20 Multi Agent BetaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
3.0Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
0.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hitilafu ya API: 1Muda wa majibu (wastani)0msMuda wa majibu (upeo)0msMuda wa majibu (jumla)0msJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
0msMuda wa majibu (wastani)โฆ
0Jumla ya tokeni za ingizoโฆ
0Tokeni za matokeoโฆ
0Tokeni za hojaโฆ
Grok 4.1 FastModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
10.0Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)37.64sMuda wa majibu (upeo)37.64sMuda wa majibu (jumla)37.64sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
10.0Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)22.42sMuda wa majibu (upeo)22.42sMuda wa majibu (jumla)22.42sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
22.42sMuda wa majibu (wastani)โฆ
12,873Jumla ya tokeni za ingizoโฆ
351Tokeni za matokeoโฆ
10,485Tokeni za hojaโฆ
Uchanganuzi na uchimbaji wa data
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za ingizo
Tokeni za matokeo
Tokeni za hoja
Grok 4.20 BetaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
10.0Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)4.01sMuda wa majibu (upeo)4.27sMuda wa majibu (jumla)8.02sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
4.01sMuda wa majibu (wastani)โฆ
7,761Jumla ya tokeni za ingizoโฆ
180Tokeni za matokeoโฆ
5,281Tokeni za hojaโฆ
Grok 4.20 Multi Agent BetaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
10.0Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)5.54sMuda wa majibu (upeo)7.51sMuda wa majibu (jumla)11.08sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
5.54sMuda wa majibu (wastani)โฆ
97,232Jumla ya tokeni za ingizoโฆ
25,306Tokeni za matokeoโฆ
25,051Tokeni za hojaโฆ
Grok 4.1 FastModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
10.0Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)6.63sMuda wa majibu (upeo)6.63sMuda wa majibu (jumla)6.63sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
10.0Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)5.43sMuda wa majibu (upeo)6.18sMuda wa majibu (jumla)10.86sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
5.43sMuda wa majibu (wastani)โฆ
7,548Jumla ya tokeni za ingizoโฆ
279Tokeni za matokeoโฆ
4,893Tokeni za hojaโฆ
Mahususi kwa domeni
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za ingizo
Tokeni za matokeo
Tokeni za hoja
Grok 4.20 BetaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
5.3Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
33.3%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 2Muda wa majibu (wastani)21.33sMuda wa majibu (upeo)24.21sMuda wa majibu (jumla)64.00sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
21.33sMuda wa majibu (wastani)โฆ
1,764Jumla ya tokeni za ingizoโฆ
251Tokeni za matokeoโฆ
40,255Tokeni za hojaโฆ
Grok 4.20 Multi Agent BetaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
2.9Wastani wa alama katika majaribio yote ya benchmark.โฆ
7.2Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
11.1%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 2Muundo wa ziada: 1Muda wa majibu (wastani)24.67sMuda wa majibu (upeo)35.28sMuda wa majibu (jumla)74.02sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
24.67sMuda wa majibu (wastani)โฆ
328,253Jumla ya tokeni za ingizoโฆ
164,609Tokeni za matokeoโฆ
163,647Tokeni za hojaโฆ
Grok 4.1 FastModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
5.8Wastani wa alama katika majaribio yote ya benchmark.โฆ
4.4Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
66.7%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
2Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Muda umeisha: 1Jibu lisilo sahihi: 1Muda wa majibu (wastani)121.79sMuda wa majibu (upeo)121.79sMuda wa majibu (jumla)121.79sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
10.0Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)15.27sMuda wa majibu (upeo)34.09sMuda wa majibu (jumla)45.80sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
15.27sMuda wa majibu (wastani)โฆ
633Jumla ya tokeni za ingizoโฆ
12Tokeni za matokeoโฆ
21,684Tokeni za hojaโฆ
Akili ya jumla
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za ingizo
Tokeni za matokeo
Tokeni za hoja
Grok 4.20 BetaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
10.0Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)5.78sMuda wa majibu (upeo)5.78sMuda wa majibu (jumla)5.78sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
5.78sMuda wa majibu (wastani)โฆ
825Jumla ya tokeni za ingizoโฆ
72Tokeni za matokeoโฆ
3,440Tokeni za hojaโฆ
Grok 4.20 Multi Agent BetaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
5.8Wastani wa alama katika majaribio yote ya benchmark.โฆ
2.8Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
66.7%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakufuata maelekezo: 1Muda wa majibu (wastani)6.40sMuda wa majibu (upeo)6.40sMuda wa majibu (jumla)6.40sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
6.40sMuda wa majibu (wastani)โฆ
41,387Jumla ya tokeni za ingizoโฆ
15,848Tokeni za matokeoโฆ
15,746Tokeni za hojaโฆ
Grok 4.1 FastModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
4.2Wastani wa alama katika majaribio yote ya benchmark.โฆ
9.9Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
0.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakufuata maelekezo: 1Muda wa majibu (wastani)16.25sMuda wa majibu (upeo)16.25sMuda wa majibu (jumla)16.25sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
10.0Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)5.19sMuda wa majibu (upeo)5.19sMuda wa majibu (jumla)5.19sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
5.19sMuda wa majibu (wastani)โฆ
486Jumla ya tokeni za ingizoโฆ
72Tokeni za matokeoโฆ
1,905Tokeni za hojaโฆ
Ufuataji wa maagizo
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za ingizo
Tokeni za matokeo
Tokeni za hoja
Grok 4.20 BetaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
9.8Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)4.89sMuda wa majibu (upeo)5.89sMuda wa majibu (jumla)9.78sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
4.89sMuda wa majibu (wastani)โฆ
1,362Jumla ya tokeni za ingizoโฆ
57Tokeni za matokeoโฆ
7,123Tokeni za hojaโฆ
Grok 4.20 Multi Agent BetaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
9.8Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)3.52sMuda wa majibu (upeo)3.80sMuda wa majibu (jumla)7.04sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
3.52sMuda wa majibu (wastani)โฆ
43,923Jumla ya tokeni za ingizoโฆ
19,752Tokeni za matokeoโฆ
19,617Tokeni za hojaโฆ
Grok 4.1 FastModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
6.5Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
50.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakufuata maelekezo: 1Muda wa majibu (wastani)4.63sMuda wa majibu (upeo)4.63sMuda wa majibu (jumla)4.63sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
10.0Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)4.04sMuda wa majibu (upeo)4.70sMuda wa majibu (jumla)8.08sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
4.04sMuda wa majibu (wastani)โฆ
615Jumla ya tokeni za ingizoโฆ
72Tokeni za matokeoโฆ
2,709Tokeni za hojaโฆ
Utatuzi wa mafumbo
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za ingizo
Tokeni za matokeo
Tokeni za hoja
Grok 4.20 BetaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
10.0Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)3.52sMuda wa majibu (upeo)4.53sMuda wa majibu (jumla)10.57sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
3.52sMuda wa majibu (wastani)โฆ
1,689Jumla ya tokeni za ingizoโฆ
328Tokeni za matokeoโฆ
6,300Tokeni za hojaโฆ
Grok 4.20 Multi Agent BetaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
6.7Wastani wa alama katika majaribio yote ya benchmark.โฆ
7.9Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
55.6%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakufuata maelekezo: 1Jibu lisilo sahihi: 1Muda wa majibu (wastani)5.19sMuda wa majibu (upeo)5.49sMuda wa majibu (jumla)15.57sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
5.19sMuda wa majibu (wastani)โฆ
107,020Jumla ya tokeni za ingizoโฆ
35,361Tokeni za matokeoโฆ
35,095Tokeni za hojaโฆ
Grok 4.1 FastModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
5.3Wastani wa alama katika majaribio yote ya benchmark.โฆ
7.2Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
44.4%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakufuata maelekezo: 1Jibu lisilo sahihi: 1Muda wa majibu (wastani)7.40sMuda wa majibu (upeo)7.79sMuda wa majibu (jumla)14.81sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
10.0Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)4.05sMuda wa majibu (upeo)5.64sMuda wa majibu (jumla)12.15sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
4.05sMuda wa majibu (wastani)โฆ
558Jumla ya tokeni za ingizoโฆ
183Tokeni za matokeoโฆ
4,365Tokeni za hojaโฆ
Mwito wa zana
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za ingizo
Tokeni za matokeo
Tokeni za hoja
Grok 4.20 BetaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
3.0Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
0.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakufuata maelekezo: 1Muda wa majibu (wastani)12.39sMuda wa majibu (upeo)12.39sMuda wa majibu (jumla)12.39sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
12.39sMuda wa majibu (wastani)โฆ
7,275Jumla ya tokeni za ingizoโฆ
183Tokeni za matokeoโฆ
5,384Tokeni za hojaโฆ
Grok 4.20 Multi Agent BetaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
3.0Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
0.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hitilafu ya API: 1Muda wa majibu (wastani)0msMuda wa majibu (upeo)0msMuda wa majibu (jumla)0msJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
0msMuda wa majibu (wastani)โฆ
0Jumla ya tokeni za ingizoโฆ
0Tokeni za matokeoโฆ
0Tokeni za hojaโฆ
Grok 4.1 FastModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
2.8Wastani wa alama katika majaribio yote ya benchmark.โฆ
1.6Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
33.3%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna jibu: 1Muda wa majibu (wastani)27.71sMuda wa majibu (upeo)27.71sMuda wa majibu (jumla)27.71sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
10.0Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)12.60sMuda wa majibu (upeo)12.60sMuda wa majibu (jumla)12.60sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
12.60sMuda wa majibu (wastani)โฆ
5,532Jumla ya tokeni za ingizoโฆ
234Tokeni za matokeoโฆ
1,487Tokeni za hojaโฆ
Maarifa ya jumla
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za ingizo
Tokeni za matokeo
Tokeni za hoja
Grok 4.20 BetaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
-
-
-
-
-
-
-
-
-
Grok 4.20 Multi Agent BetaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
-
-
-
-
-
-
-
-
-
Grok 4.1 FastModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
3.0Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
0.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 1Muda wa majibu (wastani)25.52sMuda wa majibu (upeo)25.52sMuda wa majibu (jumla)25.52sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ
10.0Wastani wa alama katika majaribio yote ya benchmark.โฆ
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).โฆ
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.โฆ
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).โฆ
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)5.50sMuda wa majibu (upeo)5.50sMuda wa majibu (jumla)5.50sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.โฆ