5.5Wastani wa alama katika majaribio yote ya benchmark.…
8.0Wastani wa alama katika majaribio yote ya benchmark.…
Uthabiti
8.4Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
8.5Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
Gharama kwa matokeo
0.220Huonyesha gharama ya wastani kwa kila jibu sahihi la benchmark kwa senti (kadri ilivyo ndogo, ndivyo bora).…
6.601Huonyesha gharama ya wastani kwa kila jibu sahihi la benchmark kwa senti (kadri ilivyo ndogo, ndivyo bora).…
Jumla ya gharama
$0.016Jumla ya gharama…
$0.793Jumla ya gharama…
Majaribio sahihi
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 6Muundo wa ziada: 2invalid tool call: 1Muda wa majibu (wastani)12.86sMuda wa majibu (upeo)115.89sMuda wa majibu (jumla)205.78sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakufuata maelekezo: 2Jibu lisilo sahihi: 2Muda wa majibu (wastani)20.05sMuda wa majibu (upeo)100.41sMuda wa majibu (jumla)320.87sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
Kiwango cha kupita kwa kila jaribio
54.2%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
83.3%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
Majaribio yasiyo thabiti
3Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
3Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jumla ya uendeshaji
48 (16 x 3)Jumla ya uendeshaji…
48 (16 x 3)Jumla ya uendeshaji…
Tokeni za matokeo
7,823Tokeni za matokeo…
1,756Tokeni za matokeo…
Tokeni za hoja
0Tokeni za hoja…
46,642Tokeni za hoja…
Muda wa majibu (wastani)
12.86sMuda wa majibu (wastani)…
20.05sMuda wa majibu (wastani)…
Muda wa majibu (upeo)
115.89sMuda wa majibu (upeo)…
100.41sMuda wa majibu (upeo)…
Muda wa majibu (jumla)
205.78sMuda wa majibu (jumla)…
320.87sMuda wa majibu (jumla)…
Modeli bora kwa alama
Alama dhidi ya gharama ya jumla
Muda wa majibu (wastani)
Wastani wa alama vs Muda wa majibu (wastani)
Mgawanyo wa kategoria
Mbinu za kupinga AI
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
DeepSeek: DeepSeek V3.2
10.0Wastani wa alama katika majaribio yote ya benchmark.…
9.7Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
0.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Muundo wa ziada: 2Jibu lisilo sahihi: 1Muda wa majibu (wastani)8.79sMuda wa majibu (upeo)12.26sMuda wa majibu (jumla)26.38sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
8.79sMuda wa majibu (wastani)…
1,411Tokeni za matokeo…
0Tokeni za hoja…
OpenAI: GPT-5.4
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)5.02sMuda wa majibu (upeo)6.42sMuda wa majibu (jumla)15.06sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
5.02sMuda wa majibu (wastani)…
216Tokeni za matokeo…
1,466Tokeni za hoja…
Mchanganyiko
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
DeepSeek: DeepSeek V3.2
8.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
0.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.invalid tool call: 1Muda wa majibu (wastani)115.89sMuda wa majibu (upeo)115.89sMuda wa majibu (jumla)115.89sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
115.89sMuda wa majibu (wastani)…
2,887Tokeni za matokeo…
0Tokeni za hoja…
OpenAI: GPT-5.4
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)20.57sMuda wa majibu (upeo)20.57sMuda wa majibu (jumla)20.57sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
20.57sMuda wa majibu (wastani)…
301Tokeni za matokeo…
3,543Tokeni za hoja…
Uchanganuzi na uchimbaji wa data
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
DeepSeek: DeepSeek V3.2
5.4Wastani wa alama katika majaribio yote ya benchmark.…
5.8Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
66.7%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 1Muda wa majibu (wastani)9.42sMuda wa majibu (upeo)16.20sMuda wa majibu (jumla)18.84sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
9.42sMuda wa majibu (wastani)…
1,710Tokeni za matokeo…
0Tokeni za hoja…
OpenAI: GPT-5.4
9.9Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)5.32sMuda wa majibu (upeo)5.40sMuda wa majibu (jumla)10.64sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
5.32sMuda wa majibu (wastani)…
234Tokeni za matokeo…
804Tokeni za hoja…
Mahususi kwa domeni
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
DeepSeek: DeepSeek V3.2
10.0Wastani wa alama katika majaribio yote ya benchmark.…
7.2Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
22.2%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 3Muda wa majibu (wastani)1.61sMuda wa majibu (upeo)1.77sMuda wa majibu (jumla)4.83sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
1.61sMuda wa majibu (wastani)…
24Tokeni za matokeo…
0Tokeni za hoja…
OpenAI: GPT-5.4
4.0Wastani wa alama katika majaribio yote ya benchmark.…
7.2Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
44.4%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 2Muda wa majibu (wastani)74.27sMuda wa majibu (upeo)100.41sMuda wa majibu (jumla)222.80sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
74.27sMuda wa majibu (wastani)…
61Tokeni za matokeo…
34,748Tokeni za hoja…
Akili ya jumla
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
DeepSeek: DeepSeek V3.2
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)2.86sMuda wa majibu (upeo)2.86sMuda wa majibu (jumla)2.86sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
2.86sMuda wa majibu (wastani)…
67Tokeni za matokeo…
0Tokeni za hoja…
OpenAI: GPT-5.4
5.0Wastani wa alama katika majaribio yote ya benchmark.…
3.1Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
33.3%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakufuata maelekezo: 1Muda wa majibu (wastani)4.92sMuda wa majibu (upeo)4.92sMuda wa majibu (jumla)4.92sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
4.92sMuda wa majibu (wastani)…
145Tokeni za matokeo…
321Tokeni za hoja…
Ufuataji wa maagizo
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
DeepSeek: DeepSeek V3.2
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)1.52sMuda wa majibu (upeo)1.99sMuda wa majibu (jumla)3.04sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
1.52sMuda wa majibu (wastani)…
66Tokeni za matokeo…
0Tokeni za hoja…
OpenAI: GPT-5.4
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)3.11sMuda wa majibu (upeo)3.68sMuda wa majibu (jumla)6.22sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
3.11sMuda wa majibu (wastani)…
93Tokeni za matokeo…
897Tokeni za hoja…
Puzzle Solving
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
DeepSeek: DeepSeek V3.2
7.7Wastani wa alama katika majaribio yote ya benchmark.…
7.5Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
88.9%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 1Muda wa majibu (wastani)7.37sMuda wa majibu (upeo)10.78sMuda wa majibu (jumla)22.10sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
7.37sMuda wa majibu (wastani)…
1,136Tokeni za matokeo…
0Tokeni za hoja…
OpenAI: GPT-5.4
7.0Wastani wa alama katika majaribio yote ya benchmark.…
7.2Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
88.9%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakufuata maelekezo: 1Muda wa majibu (wastani)9.13sMuda wa majibu (upeo)18.14sMuda wa majibu (jumla)27.39sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
9.13sMuda wa majibu (wastani)…
442Tokeni za matokeo…
3,832Tokeni za hoja…
Mwito wa zana
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za matokeo
Tokeni za hoja
DeepSeek: DeepSeek V3.2
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)11.85sMuda wa majibu (upeo)11.85sMuda wa majibu (jumla)11.85sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
11.85sMuda wa majibu (wastani)…
522Tokeni za matokeo…
0Tokeni za hoja…
OpenAI: GPT-5.4
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)13.28sMuda wa majibu (upeo)13.28sMuda wa majibu (jumla)13.28sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…