Modelranglijst voor Toolaanroepen

AI BENCHY Categorie

Zie welke AI-modellen het best presteren op Toolaanroepen, welke betrouwbaar blijven en waar de grootste verschillen zitten. Sorteren op: Totale kosten ↓.

Getoonde modellen

Gemiddelde Toolaanroepen-score

8.7

Beste model

Grok 4.20 Multi Agent Beta 3.0

Foutredenen

Met foutreden API-fout16 Met foutreden Ongeldige toolaanroep7 Met foutreden Instructies niet gevolgd6 Met foutreden Geen antwoord2 Met foutreden Verkeerd antwoord2

169/169

Rang	Model	Bedrijf	Toolaanroepen-score	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#29	Qwen3.5-27B medium	Qwen	10.0	7.9	$0.536	1/1	7.45s
Totaal tests 1 Foute tests 0 Totale kosten $0.536 Responstijd (gem.) 7.45s
#27	GPT-5.4 Mini medium	OpenAI	4.7	8.0	$0.526	0/1	9.62s
Totaal tests 1 Foute tests 1 Totale kosten $0.526 Responstijd (gem.) 9.62s
#3	Qwen3.7 Max medium	Qwen	10.0	9.4	$0.523	1/1	6.63s
Totaal tests 1 Foute tests 0 Totale kosten $0.523 Responstijd (gem.) 6.63s
#49	Claude Opus 4.7 none	Anthropic	10.0	7.4	$0.505	1/1	4.74s
Totaal tests 1 Foute tests 0 Totale kosten $0.505 Responstijd (gem.) 4.74s
#56	GLM 5V Turbo medium	Z.ai	7.0	7.3	$0.457	0/1	12.5s
Totaal tests 1 Foute tests 1 Totale kosten $0.457 Responstijd (gem.) 12.5s
#81	Qwen3.6 27B medium	Qwen	10.0	6.6	$0.440	1/1	16.9s
Totaal tests 1 Foute tests 0 Totale kosten $0.440 Responstijd (gem.) 16.9s
#45	GPT-5.3 Chat none	OpenAI	10.0	7.5	$0.433	1/1	8.36s
Totaal tests 1 Foute tests 0 Totale kosten $0.433 Responstijd (gem.) 8.36s
#89	Qwen3.5-35B-A3B medium	Qwen	10.0	6.3	$0.401	1/1	4.65s
Totaal tests 1 Foute tests 0 Totale kosten $0.401 Responstijd (gem.) 4.65s
#19	GPT-5.2 Chat none	OpenAI	10.0	8.5	$0.393	1/1	4.68s
Totaal tests 1 Foute tests 0 Totale kosten $0.393 Responstijd (gem.) 4.68s
#91	Gemini 3 PRO Preview medium	Google	10.0	6.2	$0.385	1/1	12.0s
Totaal tests 1 Foute tests 0 Totale kosten $0.385 Responstijd (gem.) 12.0s
#24	Gemini 2.5 Flash medium	Google	10.0	8.2	$0.379	1/1	6.20s
Totaal tests 1 Foute tests 0 Totale kosten $0.379 Responstijd (gem.) 6.20s
#20	Step 3.7 Flash medium	Stepfun	10.0	8.5	$0.376	1/1	4.16s
Totaal tests 1 Foute tests 0 Totale kosten $0.376 Responstijd (gem.) 4.16s
#5	Gemini 3.5 Flash low	Google	10.0	9.2	$0.349	1/1	3.27s
Totaal tests 1 Foute tests 0 Totale kosten $0.349 Responstijd (gem.) 3.27s
#43	Kimi K2.5 medium	Moonshot AI	10.0	7.5	$0.348	1/1	31.7s
Totaal tests 1 Foute tests 0 Totale kosten $0.348 Responstijd (gem.) 31.7s
#39	Step 3.7 Flash low	Stepfun	10.0	7.7	$0.341	1/1	3.25s
Totaal tests 1 Foute tests 0 Totale kosten $0.341 Responstijd (gem.) 3.25s

Toolaanroepen-ranglijst

Modellen filteren

Topmodellen op Toolaanroepen-score

Toolaanroepen-score vs totale kosten

Topmodellen op Responstijd (gem.)