7.1Wastani wa alama katika majaribio yote ya benchmark.…
7.2Wastani wa alama katika majaribio yote ya benchmark.…
Nafasi
#23
#21
Majaribio sahihi
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 4Hakufuata maelekezo: 2Muda wa majibu (wastani)1.33sMuda wa majibu (upeo)3.39sMuda wa majibu (jumla)21.34sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 3Hitilafu ya API: 1Hakufuata maelekezo: 1Muda wa majibu (wastani)25.25sMuda wa majibu (upeo)96.01sMuda wa majibu (jumla)252.48sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
Uthabiti
9.6Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
9.5Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
Gharama kwa matokeo
0.143Huonyesha gharama ya wastani kwa kila jibu sahihi la benchmark kwa senti (kadri ilivyo ndogo, ndivyo bora).…
0.314Huonyesha gharama ya wastani kwa kila jibu sahihi la benchmark kwa senti (kadri ilivyo ndogo, ndivyo bora).…
Jumla ya gharama
$0.015Jumla ya gharama…
$0.035Jumla ya gharama…
Kiwango cha kupita kwa kila jaribio
66.7%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
72.9%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
Majaribio yasiyo thabiti
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
common.totalRuns
46 (16 x 2.88)common.totalRuns…
46 (16 x 2.88)common.totalRuns…
Tokeni za matokeo
4,669Tokeni za matokeo…
11,556Tokeni za matokeo…
Tokeni za hoja
0Tokeni za hoja…
106,408Tokeni za hoja…
Muda wa majibu (wastani)
1.33sMuda wa majibu (wastani)…
25.25sMuda wa majibu (wastani)…
Muda wa majibu (upeo)
3.39sMuda wa majibu (upeo)…
96.01sMuda wa majibu (upeo)…
Muda wa majibu (jumla)
21.34sMuda wa majibu (jumla)…
252.48sMuda wa majibu (jumla)…
Modeli bora kwa alama
Alama dhidi ya gharama ya jumla
Muda wa majibu (wastani)
Wastani wa alama vs Muda wa majibu (wastani)
Mgawanyo wa kategoria
Mbinu za kupinga AI
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
Google: Gemini 3.1 Flash Lite Preview
6.0Wastani wa alama katika majaribio yote ya benchmark.…
7.8Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
55.6%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakufuata maelekezo: 1Jibu lisilo sahihi: 1Muda wa majibu (wastani)1.16sMuda wa majibu (upeo)1.47sMuda wa majibu (jumla)3.49sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
1.16sMuda wa majibu (wastani)…
1,086Tokeni za matokeo…
0Tokeni za hoja…
Xiaomi: MiMo-V2-Flash
9.7Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)16.79sMuda wa majibu (upeo)20.83sMuda wa majibu (jumla)33.57sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
16.79sMuda wa majibu (wastani)…
1,328Tokeni za matokeo…
18,739Tokeni za hoja…
Mchanganyiko
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
Google: Gemini 3.1 Flash Lite Preview
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
0.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 1Muda wa majibu (wastani)3.20sMuda wa majibu (upeo)3.20sMuda wa majibu (jumla)3.20sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
3.20sMuda wa majibu (wastani)…
339Tokeni za matokeo…
0Tokeni za hoja…
Xiaomi: MiMo-V2-Flash
9.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)75.68sMuda wa majibu (upeo)75.68sMuda wa majibu (jumla)75.68sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
75.68sMuda wa majibu (wastani)…
442Tokeni za matokeo…
26,859Tokeni za hoja…
Uchanganuzi na uchimbaji wa data
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
Google: Gemini 3.1 Flash Lite Preview
9.9Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)1.22sMuda wa majibu (upeo)1.33sMuda wa majibu (jumla)2.44sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
1.22sMuda wa majibu (wastani)…
399Tokeni za matokeo…
0Tokeni za hoja…
Xiaomi: MiMo-V2-Flash
5.5Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
50.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hitilafu ya API: 1Muda wa majibu (wastani)0msMuda wa majibu (upeo)0msMuda wa majibu (jumla)0msJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
0msMuda wa majibu (wastani)…
153Tokeni za matokeo…
0Tokeni za hoja…
Mahususi kwa domeni
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
Google: Gemini 3.1 Flash Lite Preview
4.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
33.3%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 2Muda wa majibu (wastani)942msMuda wa majibu (upeo)1.12sMuda wa majibu (jumla)2.83sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
942msMuda wa majibu (wastani)…
568Tokeni za matokeo…
0Tokeni za hoja…
Xiaomi: MiMo-V2-Flash
4.0Wastani wa alama katika majaribio yote ya benchmark.…
7.2Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
55.6%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 2Muda wa majibu (wastani)96.01sMuda wa majibu (upeo)96.01sMuda wa majibu (jumla)96.01sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
96.01sMuda wa majibu (wastani)…
8,374Tokeni za matokeo…
42,461Tokeni za hoja…
Akili ya jumla
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
Google: Gemini 3.1 Flash Lite Preview
3.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
0.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakufuata maelekezo: 1Muda wa majibu (wastani)808msMuda wa majibu (upeo)808msMuda wa majibu (jumla)808msJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
808msMuda wa majibu (wastani)…
23Tokeni za matokeo…
0Tokeni za hoja…
Xiaomi: MiMo-V2-Flash
3.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
0.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakufuata maelekezo: 1Muda wa majibu (wastani)3.34sMuda wa majibu (upeo)3.34sMuda wa majibu (jumla)3.34sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
3.34sMuda wa majibu (wastani)…
30Tokeni za matokeo…
182Tokeni za hoja…
Ufuataji wa maagizo
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
Google: Gemini 3.1 Flash Lite Preview
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)1.13sMuda wa majibu (upeo)1.14sMuda wa majibu (jumla)2.27sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
1.13sMuda wa majibu (wastani)…
574Tokeni za matokeo…
0Tokeni za hoja…
Xiaomi: MiMo-V2-Flash
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)4.28sMuda wa majibu (upeo)7.37sMuda wa majibu (jumla)8.55sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
4.28sMuda wa majibu (wastani)…
75Tokeni za matokeo…
3,504Tokeni za hoja…
Puzzle Solving
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
Google: Gemini 3.1 Flash Lite Preview
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)972msMuda wa majibu (upeo)1.13sMuda wa majibu (jumla)2.92sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
972msMuda wa majibu (wastani)…
898Tokeni za matokeo…
0Tokeni za hoja…
Xiaomi: MiMo-V2-Flash
7.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
66.7%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 1Muda wa majibu (wastani)3.77sMuda wa majibu (upeo)5.26sMuda wa majibu (jumla)7.55sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
3.77sMuda wa majibu (wastani)…
833Tokeni za matokeo…
1,948Tokeni za hoja…
Mwito wa zana
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
Google: Gemini 3.1 Flash Lite Preview
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)3.39sMuda wa majibu (upeo)3.39sMuda wa majibu (jumla)3.39sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
3.39sMuda wa majibu (wastani)…
782Tokeni za matokeo…
0Tokeni za hoja…
Xiaomi: MiMo-V2-Flash
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)27.78sMuda wa majibu (upeo)27.78sMuda wa majibu (jumla)27.78sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…