Ulinganisho wa benchmark Gemini 3.5 Flash vs Grok 4.20 Beta: Gemini 3.5 Flash inaongoza kwa average score: 9.4 vs 8.5. Gemini 3.5 Flash ina gharama ya chini ya benchmark: $0.349 vs $0.750. Gemini 3.5 Flash ni ya haraka zaidi: 3.27s vs 9.75s, na pass rates 90.5% vs 81.5%.
Muundo unaopendekezwa: Gemini 3.5 Flash - It has the best score here (9.4), while costing about 2.2x less than Grok 4.20 Beta.
Benchmark zimetengenezwa kutoka seti za majaribio za AI BENCHY tarehe: 2026-06-10
Grok 4.20 BetaGrok 4.20 BetamediumModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.Toleo: 2026-03-12
Alama
9.4Wastani wa alama katika majaribio yote ya benchmark.…
8.5Wastani wa alama katika majaribio yote ya benchmark.…
Nafasi
#3
#14
Uaminifu
10.0Alama ya mafanikio ya jaribio la kwanza: 10.0 humaanisha hakuna hitilafu za API lengwa au kikomo cha kasi zinazoweza kujaribiwa tena kabla ya miito iliyofanikiwa; hitilafu zilizorekodiwa hushusha alama.…
HaipoAlama ya mafanikio ya jaribio la kwanza: 10.0 humaanisha hakuna hitilafu za API lengwa au kikomo cha kasi zinazoweza kujaribiwa tena kabla ya miito iliyofanikiwa; hitilafu zilizorekodiwa hushusha alama.…
Uthabiti
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
9.5Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
Majaribio sahihi
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 2Muda wa majibu (wastani)3.27sMuda wa majibu (upeo)9.05sMuda wa majibu (jumla)68.65sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 3Hakufuata maelekezo: 1Muda wa majibu (wastani)9.75sMuda wa majibu (upeo)31.36sMuda wa majibu (jumla)175.48sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
Kiwango cha kupita kwa kila jaribio
90.5%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
81.5%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
Majaribio yasiyo thabiti
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jumla ya uendeshaji
63Jumla ya uendeshaji…
52Jumla ya uendeshaji…
Gharama kwa matokeo
1.834Huonyesha gharama ya wastani kwa kila jibu sahihi la benchmark kwa senti (kadri ilivyo ndogo, ndivyo bora).…
4.505Huonyesha gharama ya wastani kwa kila jibu sahihi la benchmark kwa senti (kadri ilivyo ndogo, ndivyo bora).…
Jumla ya gharama
$0.349Jumla ya gharama (bei ya sasa)…
$0.750Jumla ya gharama (bei ya sasa)…
Bei ya ingizo
$1.500 / 1MBei ya ingizo…
$5.805 / 1MBei ya ingizo…
Bei ya toleo
$9.000 / 1MBei ya toleo…
$5.805 / 1MBei ya toleo…
Jumla ya tokeni za ingizo
36,938Jumla ya tokeni za ingizo…
35,955Jumla ya tokeni za ingizo…
Tokeni za matokeo
2,033Tokeni za matokeo…
1,647Tokeni za matokeo…
Tokeni za hoja
30,519Tokeni za hoja…
91,565Tokeni za hoja…
Muda wa majibu (wastani)
3.27sMuda wa majibu (wastani)…
9.75sMuda wa majibu (wastani)…
Muda wa majibu (upeo)
9.05sMuda wa majibu (upeo)…
31.36sMuda wa majibu (upeo)…
Muda wa majibu (jumla)
68.65sMuda wa majibu (jumla)…
175.48sMuda wa majibu (jumla)…
Generation showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)2.52sMuda wa majibu (upeo)5.40sMuda wa majibu (jumla)10.08sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
2.52sMuda wa majibu (wastani)…
494Jumla ya tokeni za ingizo…
209Tokeni za matokeo…
2,536Tokeni za hoja…
Grok 4.20 BetaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
8.7Wastani wa alama katika majaribio yote ya benchmark.…
7.9Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
91.7%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 1Muda wa majibu (wastani)3.16sMuda wa majibu (upeo)3.44sMuda wa majibu (jumla)12.65sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
7.8Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
66.7%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 1Muda wa majibu (wastani)6.71sMuda wa majibu (upeo)9.05sMuda wa majibu (jumla)20.13sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
6.71sMuda wa majibu (wastani)…
8,118Jumla ya tokeni za ingizo…
458Tokeni za matokeo…
13,420Tokeni za hoja…
Grok 4.20 BetaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)31.36sMuda wa majibu (upeo)31.36sMuda wa majibu (jumla)31.36sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)6.44sMuda wa majibu (upeo)6.44sMuda wa majibu (jumla)6.44sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
6.44sMuda wa majibu (wastani)…
12,873Jumla ya tokeni za ingizo…
351Tokeni za matokeo…
3,050Tokeni za hoja…
Grok 4.20 BetaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)20.93sMuda wa majibu (upeo)20.93sMuda wa majibu (jumla)20.93sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)1.81sMuda wa majibu (upeo)2.32sMuda wa majibu (jumla)3.63sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
1.81sMuda wa majibu (wastani)…
7,548Jumla ya tokeni za ingizo…
279Tokeni za matokeo…
1,164Tokeni za hoja…
Grok 4.20 BetaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)4.01sMuda wa majibu (upeo)4.27sMuda wa majibu (jumla)8.02sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
7.7Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
66.7%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 1Muda wa majibu (wastani)3.39sMuda wa majibu (upeo)4.44sMuda wa majibu (jumla)10.16sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
3.39sMuda wa majibu (wastani)…
633Jumla ya tokeni za ingizo…
12Tokeni za matokeo…
4,538Tokeni za hoja…
Grok 4.20 BetaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
5.3Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
33.3%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 2Muda wa majibu (wastani)21.33sMuda wa majibu (upeo)24.21sMuda wa majibu (jumla)64.00sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)2.27sMuda wa majibu (upeo)2.27sMuda wa majibu (jumla)2.27sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
2.27sMuda wa majibu (wastani)…
486Jumla ya tokeni za ingizo…
119Tokeni za matokeo…
916Tokeni za hoja…
Grok 4.20 BetaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)5.78sMuda wa majibu (upeo)5.78sMuda wa majibu (jumla)5.78sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
9.9Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)1.86sMuda wa majibu (upeo)2.10sMuda wa majibu (jumla)3.73sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
1.86sMuda wa majibu (wastani)…
615Jumla ya tokeni za ingizo…
71Tokeni za matokeo…
1,652Tokeni za hoja…
Grok 4.20 BetaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
9.8Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)4.89sMuda wa majibu (upeo)5.89sMuda wa majibu (jumla)9.78sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)2.35sMuda wa majibu (upeo)3.25sMuda wa majibu (jumla)7.06sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
2.35sMuda wa majibu (wastani)…
558Jumla ya tokeni za ingizo…
288Tokeni za matokeo…
2,150Tokeni za hoja…
Grok 4.20 BetaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)3.52sMuda wa majibu (upeo)4.53sMuda wa majibu (jumla)10.57sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)3.27sMuda wa majibu (upeo)3.27sMuda wa majibu (jumla)3.27sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
3.27sMuda wa majibu (wastani)…
5,457Jumla ya tokeni za ingizo…
234Tokeni za matokeo…
403Tokeni za hoja…
Grok 4.20 BetaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
3.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
0.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakufuata maelekezo: 1Muda wa majibu (wastani)12.39sMuda wa majibu (upeo)12.39sMuda wa majibu (jumla)12.39sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)1.88sMuda wa majibu (upeo)1.88sMuda wa majibu (jumla)1.88sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
1.88sMuda wa majibu (wastani)…
156Jumla ya tokeni za ingizo…
12Tokeni za matokeo…
690Tokeni za hoja…
Grok 4.20 BetaModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.