Anthropic: Claude Opus 4.7 vs Tencent: Hy3 preview
Muhtasari
Ulinganisho wa benchmark Claude Opus 4.7 vs Hy3 preview: Claude Opus 4.7 inaongoza kwa average score: 7.4 vs 6.8. Hy3 preview ina gharama ya chini ya benchmark: $0.059 vs $0.505. Claude Opus 4.7 ni ya haraka zaidi: 3.02s vs 56.57s, na pass rates 76.2% vs 55.6%.
Muundo unaopendekezwa: Claude Opus 4.7 - It has the best score here (7.4), while responding about 18.7x faster than Hy3 preview.
Benchmark zimetengenezwa kutoka seti za majaribio za AI BENCHY tarehe: 2026-06-18
Kipimo
Claude Opus 4.7Claude Opus 4.7noneModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.Toleo: 2026-04-16
Hy3 previewHy3 previewhighModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.Toleo: 2026-04-22
Kipimo
Claude Opus 4.7Claude Opus 4.7noneModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.Toleo: 2026-04-16
Hy3 previewHy3 previewhighModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.Toleo: 2026-04-22
Alama
7.4Wastani wa alama katika majaribio yote ya benchmark.…
6.8Wastani wa alama katika majaribio yote ya benchmark.…
Nafasi
#49
#74
Uaminifu
10.0Alama ya mafanikio ya jaribio la kwanza: 10.0 humaanisha hakuna hitilafu za API lengwa au kikomo cha kasi zinazoweza kujaribiwa tena kabla ya miito iliyofanikiwa; hitilafu zilizorekodiwa hushusha alama.…
10.0Alama ya mafanikio ya jaribio la kwanza: 10.0 humaanisha hakuna hitilafu za API lengwa au kikomo cha kasi zinazoweza kujaribiwa tena kabla ya miito iliyofanikiwa; hitilafu zilizorekodiwa hushusha alama.…
Uthabiti
9.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
9.2Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
Majaribio sahihi
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 3Muda wa majibu (wastani)3.02sMuda wa majibu (upeo)18.27sMuda wa majibu (jumla)57.44sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hitilafu ya API: 7Jibu lisilo sahihi: 3Muda wa majibu (wastani)56.57sMuda wa majibu (upeo)149.94sMuda wa majibu (jumla)848.59sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
Kiwango cha kupita kwa kila jaribio
76.2%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
55.6%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
Majaribio yasiyo thabiti
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
2Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jumla ya uendeshaji
57Jumla ya uendeshaji…
63Jumla ya uendeshaji…
Gharama kwa matokeo
3.154Huonyesha gharama ya wastani kwa kila jibu sahihi la benchmark kwa senti (kadri ilivyo ndogo, ndivyo bora).…
0.000Huonyesha gharama ya wastani kwa kila jibu sahihi la benchmark kwa senti (kadri ilivyo ndogo, ndivyo bora).…
Jumla ya gharama
$0.505Jumla ya gharama (bei ya sasa)…
$0.059Jumla ya gharama (bei ya sasa)…
Bei ya ingizo
$5.000 / 1MBei ya ingizo…
$0.066 / 1MBei ya ingizo…
Bei ya toleo
$25.000 / 1MBei ya toleo…
$0.260 / 1MBei ya toleo…
Jumla ya tokeni za ingizo
69,576Jumla ya tokeni za ingizo…
25,987Jumla ya tokeni za ingizo…
Tokeni za matokeo
6,265Tokeni za matokeo…
216,719Tokeni za matokeo…
Tokeni za hoja
0Tokeni za hoja…
0Tokeni za hoja…
Muda wa majibu (wastani)
3.02sMuda wa majibu (wastani)…
56.57sMuda wa majibu (wastani)…
Muda wa majibu (upeo)
18.27sMuda wa majibu (upeo)…
149.94sMuda wa majibu (upeo)…
Muda wa majibu (jumla)
57.44sMuda wa majibu (jumla)…
848.59sMuda wa majibu (jumla)…
Onyesho la kizazi
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
#49 Claude Opus 4.7
none
Gharama
$0.051
Muda
24.2s
Tokeni
2,181 tok
#74 Hy3 preview
high
Hy3 preview is no longer available as a free model. It has transitioned to a paid model. Continue using it here: https://openrouter.ai/tencent/hy3-preview
Gharama
$0.000
Muda
0.0s
Tokeni
0 tok
Alama
-
Gharama
-
Muda
-
Tokeni
-
Modeli bora kwa alama
Alama dhidi ya gharama ya jumla
Muda wa majibu (wastani)
Alama vs Muda wa majibu (wastani)
Jumla ya tokeni za matokeo
Alama vs Jumla ya tokeni za matokeo
Mgawanyo wa kategoria
Mbinu za kupinga AI
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za ingizo
Tokeni za matokeo
Tokeni za hoja
Claude Opus 4.7Modeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
8.3Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
75.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 1Muda wa majibu (wastani)2.12sMuda wa majibu (upeo)3.75sMuda wa majibu (jumla)8.50sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
2.12sMuda wa majibu (wastani)…
894Jumla ya tokeni za ingizo…
522Tokeni za matokeo…
0Tokeni za hoja…
Hy3 previewModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
6.4Wastani wa alama katika majaribio yote ya benchmark.…
7.9Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
58.3%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hitilafu ya API: 2Muda wa majibu (wastani)15.12sMuda wa majibu (upeo)19.99sMuda wa majibu (jumla)45.37sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
15.12sMuda wa majibu (wastani)…
373Jumla ya tokeni za ingizo…
6,839Tokeni za matokeo…
0Tokeni za hoja…
Uandishi wa msimbo
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za ingizo
Tokeni za matokeo
Tokeni za hoja
Claude Opus 4.7Modeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
3.3Wastani wa alama katika majaribio yote ya benchmark.…
3.3Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
33.3%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)2.84sMuda wa majibu (upeo)2.84sMuda wa majibu (jumla)2.84sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
2.84sMuda wa majibu (wastani)…
1,176Jumla ya tokeni za ingizo…
494Tokeni za matokeo…
0Tokeni za hoja…
Hy3 previewModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
5.3Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
33.3%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hitilafu ya API: 2Muda wa majibu (wastani)99.76sMuda wa majibu (upeo)99.76sMuda wa majibu (jumla)99.76sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
99.76sMuda wa majibu (wastani)…
741Jumla ya tokeni za ingizo…
38,167Tokeni za matokeo…
0Tokeni za hoja…
Mchanganyiko
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za ingizo
Tokeni za matokeo
Tokeni za hoja
Claude Opus 4.7Modeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
9.5Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)18.27sMuda wa majibu (upeo)18.27sMuda wa majibu (jumla)18.27sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
18.27sMuda wa majibu (wastani)…
37,740Jumla ya tokeni za ingizo…
3,504Tokeni za matokeo…
0Tokeni za hoja…
Hy3 previewModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)113.09sMuda wa majibu (upeo)113.09sMuda wa majibu (jumla)113.09sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
113.09sMuda wa majibu (wastani)…
13,119Jumla ya tokeni za ingizo…
31,319Tokeni za matokeo…
0Tokeni za hoja…
Uchanganuzi na uchimbaji wa data
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za ingizo
Tokeni za matokeo
Tokeni za hoja
Claude Opus 4.7Modeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)2.15sMuda wa majibu (upeo)2.33sMuda wa majibu (jumla)4.29sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
2.15sMuda wa majibu (wastani)…
10,533Jumla ya tokeni za ingizo…
324Tokeni za matokeo…
0Tokeni za hoja…
Hy3 previewModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
6.5Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
50.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hitilafu ya API: 1Muda wa majibu (wastani)12.11sMuda wa majibu (upeo)12.11sMuda wa majibu (jumla)12.11sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
12.11sMuda wa majibu (wastani)…
2,316Jumla ya tokeni za ingizo…
4,323Tokeni za matokeo…
0Tokeni za hoja…
Mahususi kwa domeni
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za ingizo
Tokeni za matokeo
Tokeni za hoja
Claude Opus 4.7Modeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
7.7Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
66.7%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 1Muda wa majibu (wastani)1.19sMuda wa majibu (upeo)1.40sMuda wa majibu (jumla)3.58sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
1.19sMuda wa majibu (wastani)…
1,020Jumla ya tokeni za ingizo…
78Tokeni za matokeo…
0Tokeni za hoja…
Hy3 previewModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
5.3Wastani wa alama katika majaribio yote ya benchmark.…
7.2Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
44.4%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
1Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 2Muda wa majibu (wastani)109.04sMuda wa majibu (upeo)149.94sMuda wa majibu (jumla)327.11sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
109.04sMuda wa majibu (wastani)…
747Jumla ya tokeni za ingizo…
87,559Tokeni za matokeo…
0Tokeni za hoja…
Akili ya jumla
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za ingizo
Tokeni za matokeo
Tokeni za hoja
Claude Opus 4.7Modeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)3.47sMuda wa majibu (upeo)3.47sMuda wa majibu (jumla)3.47sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
3.47sMuda wa majibu (wastani)…
723Jumla ya tokeni za ingizo…
257Tokeni za matokeo…
0Tokeni za hoja…
Hy3 previewModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
3.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
0.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hitilafu ya API: 1Muda wa majibu (wastani)0msMuda wa majibu (upeo)0msMuda wa majibu (jumla)0msJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
0msMuda wa majibu (wastani)…
0Jumla ya tokeni za ingizo…
0Tokeni za matokeo…
0Tokeni za hoja…
Ufuataji wa maagizo
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za ingizo
Tokeni za matokeo
Tokeni za hoja
Claude Opus 4.7Modeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)1.46sMuda wa majibu (upeo)1.68sMuda wa majibu (jumla)2.91sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
1.46sMuda wa majibu (wastani)…
939Jumla ya tokeni za ingizo…
114Tokeni za matokeo…
0Tokeni za hoja…
Hy3 previewModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)34.36sMuda wa majibu (upeo)41.83sMuda wa majibu (jumla)68.73sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
34.36sMuda wa majibu (wastani)…
675Jumla ya tokeni za ingizo…
13,483Tokeni za matokeo…
0Tokeni za hoja…
Utatuzi wa mafumbo
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za ingizo
Tokeni za matokeo
Tokeni za hoja
Claude Opus 4.7Modeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)2.46sMuda wa majibu (upeo)3.72sMuda wa majibu (jumla)7.38sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
2.46sMuda wa majibu (wastani)…
939Jumla ya tokeni za ingizo…
597Tokeni za matokeo…
0Tokeni za hoja…
Hy3 previewModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
7.7Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
66.7%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hitilafu ya API: 1Muda wa majibu (wastani)27.94sMuda wa majibu (upeo)45.06sMuda wa majibu (jumla)55.89sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
27.94sMuda wa majibu (wastani)…
390Jumla ya tokeni za ingizo…
15,567Tokeni za matokeo…
0Tokeni za hoja…
Mwito wa zana
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za ingizo
Tokeni za matokeo
Tokeni za hoja
Claude Opus 4.7Modeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)4.74sMuda wa majibu (upeo)4.74sMuda wa majibu (jumla)4.74sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
4.74sMuda wa majibu (wastani)…
15,339Jumla ya tokeni za ingizo…
372Tokeni za matokeo…
0Tokeni za hoja…
Hy3 previewModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
10.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
100.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Hakuna majibu yaliyoshindwa.Muda wa majibu (wastani)78.83sMuda wa majibu (upeo)78.83sMuda wa majibu (jumla)78.83sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
78.83sMuda wa majibu (wastani)…
7,410Jumla ya tokeni za ingizo…
10,370Tokeni za matokeo…
0Tokeni za hoja…
Maarifa ya jumla
Alama
Uthabiti
Kiwango cha kupita kwa kila jaribio
Majaribio yasiyo thabiti
Majaribio sahihi
Muda wa majibu (wastani)
Tokeni za ingizo
Tokeni za matokeo
Tokeni za hoja
Claude Opus 4.7Modeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
3.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
0.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 1Muda wa majibu (wastani)1.46sMuda wa majibu (upeo)1.46sMuda wa majibu (jumla)1.46sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…
1.46sMuda wa majibu (wastani)…
273Jumla ya tokeni za ingizo…
3Tokeni za matokeo…
0Tokeni za hoja…
Hy3 previewModeli iliyohifadhiwa: modeli hii haitasasishwa tena wala kujaribiwa kwenye majaribio mapya.
3.0Wastani wa alama katika majaribio yote ya benchmark.…
10.0Alama ya uthabiti inaonyesha utulivu kati ya run (10 = thabiti sana, hata ikiwa ni makosa mfululizo).…
0.0%Kiwango cha kupita kwa kila jaribio = majaribio yaliyopita / jumla ya majaribio katika run zote.…
0Majaribio yasiyo thabiti yalikuwa na matokeo mchanganyiko kati ya run (angalau kupita moja na kufeli moja).…
Jaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.Jibu lisilo sahihi: 1Muda wa majibu (wastani)47.71sMuda wa majibu (upeo)47.71sMuda wa majibu (jumla)47.71sJaribio huhesabiwa kuwa limepita kikamilifu tu ikiwa run zake zote zimepita.…