Modelranglijst voor Toolaanroepen

AI BENCHY Categorie

Zie welke AI-modellen het best presteren op Toolaanroepen, welke betrouwbaar blijven en waar de grootste verschillen zitten. Sorteren op: Responstijd (gem.) ↑.

Getoonde modellen

Gemiddelde Toolaanroepen-score

8.7

Beste model

GLM 5.1 3.0

Foutredenen

Met foutreden API-fout16 Met foutreden Ongeldige toolaanroep7 Met foutreden Instructies niet gevolgd6 Met foutreden Geen antwoord2 Met foutreden Verkeerd antwoord2

169/169

Rang	Model	Bedrijf	Toolaanroepen-score	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#25	Qwen3.7 Plus medium	Qwen	10.0	8.2	$0.177	1/1	15.0s
Totaal tests 1 Foute tests 0 Totale kosten $0.177 Responstijd (gem.) 15.0s
#54	Hy3 preview medium	Tencent	10.0	7.3	$0.021	1/1	15.0s
Totaal tests 1 Foute tests 0 Totale kosten $0.021 Responstijd (gem.) 15.0s
#146	MiniMax M2.5 medium	Minimax	10.0	4.7	$0.303	1/1	15.4s
Totaal tests 1 Foute tests 0 Totale kosten $0.303 Responstijd (gem.) 15.4s
#61	GLM 5.2 none	Z.ai	10.0	7.1	$0.076	1/1	15.8s
Totaal tests 1 Foute tests 0 Totale kosten $0.076 Responstijd (gem.) 15.8s
#41	DeepSeek V4 Pro high	DeepSeek	9.8	7.6	$0.157	1/1	15.9s
Totaal tests 1 Foute tests 0 Totale kosten $0.157 Responstijd (gem.) 15.9s
#15	GLM 5 medium	Z.ai	10.0	8.6	$0.228	1/1	15.9s
Totaal tests 1 Foute tests 0 Totale kosten $0.228 Responstijd (gem.) 15.9s
#157	GLM 4.7 Flash medium	Z.ai	10.0	4.3	$0.054	1/1	15.9s
Totaal tests 1 Foute tests 0 Totale kosten $0.054 Responstijd (gem.) 15.9s
#142	Nemotron 3 Super none	NVIDIA	4.7	4.9	$0.007	0/1	16.0s
Totaal tests 1 Foute tests 1 Totale kosten $0.007 Responstijd (gem.) 16.0s
#51	MiMo-V2.5-Pro medium	Xiaomi	10.0	7.4	$0.106	1/1	16.9s
Totaal tests 1 Foute tests 0 Totale kosten $0.106 Responstijd (gem.) 16.9s
#81	Qwen3.6 27B medium	Qwen	10.0	6.6	$0.440	1/1	16.9s
Totaal tests 1 Foute tests 0 Totale kosten $0.440 Responstijd (gem.) 16.9s
#6	Claude Fable 5 medium	Anthropic	10.0	9.2	$3.165	1/1	17.0s
Totaal tests 1 Foute tests 0 Totale kosten $3.165 Responstijd (gem.) 17.0s
#132	Hunter Alpha medium	OpenRouter	10.0	5.1	$0.000	1/1	17.3s
Totaal tests 1 Foute tests 0 Totale kosten $0.000 Responstijd (gem.) 17.3s
#37	Grok 4.3 medium	X AI	10.0	7.7	$0.614	1/1	17.7s
Totaal tests 1 Foute tests 0 Totale kosten $0.614 Responstijd (gem.) 17.7s
#86	Hy3 preview low	Tencent	2.8	6.4	$0.018	0/1	17.8s
Totaal tests 1 Foute tests 1 Totale kosten $0.018 Responstijd (gem.) 17.8s
#11	Qwen3.6 Max Preview medium	Qwen	10.0	8.9	$0.960	1/1	18.3s
Totaal tests 1 Foute tests 0 Totale kosten $0.960 Responstijd (gem.) 18.3s

←

1 9 10 11 12

→

Toolaanroepen-ranglijst

Modellen filteren

Topmodellen op Toolaanroepen-score

Toolaanroepen-score vs totale kosten

Topmodellen op Responstijd (gem.)