AI BENCHY
Vergelijken Grafieken Methodologie
โค๏ธ Made by XCS
Your ad here

AI BENCHY Categoriefouten

Gecombineerd
Ongeldige toolaanroep

Zie welke AI-modellen op Gecombineerd het meest kans hebben op Ongeldige toolaanroep, zodat je zwakke punten sneller ziet. Sorteren op: Responstijd (gem.) โ†‘.

Getoonde modellen

4

Totaal fouten

4

Meest getroffen model

GLM 4.7 Flash 1

Verwante categorieรซn

Rang Model Bedrijf Ongeldige toolaanroep-aantal Categoriescore Correcte tests Responstijd (gem.)
#49 GLM 4.7 Flash none Z.ai 1 10.0 0/1 3.22s
#43 MiniMax M2.5 medium Minimax 1 10.0 0/1 60.4s
#52 GLM 4.7 Flash medium Z.ai 1 10.0 0/1 65.6s
#33 DeepSeek V3.2 none DeepSeek 1 8.0 0/1 115.9s

Topmodellen op Ongeldige toolaanroep-aantal

Ongeldige toolaanroep-aantal vs gem. score

Topmodellen op Responstijd (gem.)

Topmodellen op Geschatte verspilde kosten