AI BENCHY
Vergelijken Grafieken Methodologie
โค๏ธ Made by XCS
Your ad here

AI BENCHY Categoriefouten

Gecombineerd
Ongeldige toolaanroep

Zie welke AI-modellen op Gecombineerd het meest kans hebben op Ongeldige toolaanroep, zodat je zwakke punten sneller ziet. Sorteren op: Aantal fouten โ†‘.

Getoonde modellen

4

Totaal fouten

4

Meest getroffen model

DeepSeek V3.2 1

Verwante categorieรซn

Rang Model Bedrijf Ongeldige toolaanroep-aantal Categoriescore Correcte tests Responstijd (gem.)
#33 DeepSeek V3.2 none DeepSeek 1 8.0 0/1 115.9s
#43 MiniMax M2.5 medium Minimax 1 10.0 0/1 60.4s
#49 GLM 4.7 Flash none Z.ai 1 10.0 0/1 3.22s
#52 GLM 4.7 Flash medium Z.ai 1 10.0 0/1 65.6s

Topmodellen op Ongeldige toolaanroep-aantal

Ongeldige toolaanroep-aantal vs gem. score

Topmodellen op Responstijd (gem.)

Topmodellen op Geschatte verspilde kosten