Modelranglijst voor Toolaanroepen

AI BENCHY Categorie

Zie welke AI-modellen het best presteren op Toolaanroepen, welke betrouwbaar blijven en waar de grootste verschillen zitten. Sorteren op: Correcte tests ↑.

Getoonde modellen

Gemiddelde Toolaanroepen-score

8.7

Beste model

GPT-5.2 4.7

Foutredenen

Met foutreden API-fout16 Met foutreden Ongeldige toolaanroep7 Met foutreden Instructies niet gevolgd6 Met foutreden Geen antwoord2 Met foutreden Verkeerd antwoord2

169/169

Rang	Model	Bedrijf	Toolaanroepen-score	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#158	Hy3 preview none	Tencent	10.0	4.3	$0.003	1/1	33.8s
Totaal tests 1 Foute tests 0 Totale kosten $0.003 Responstijd (gem.) 33.8s
#159	MiMo-V2-Flash none	Xiaomi	10.0	4.3	$0.025	1/1	2.28s
Totaal tests 1 Foute tests 0 Totale kosten $0.025 Responstijd (gem.) 2.28s
#163	Granite 4.1 8B none	IBM Granite	10.0	4.0	$0.003	1/1	2.17s
Totaal tests 1 Foute tests 0 Totale kosten $0.003 Responstijd (gem.) 2.17s
#165	Qwen3.5-9B medium	Qwen	10.0	3.8	$0.036	1/1	4.31s
Totaal tests 1 Foute tests 0 Totale kosten $0.036 Responstijd (gem.) 4.31s

Toolaanroepen-ranglijst

Modellen filteren

Topmodellen op Toolaanroepen-score

Toolaanroepen-score vs totale kosten

Topmodellen op Responstijd (gem.)