Modelranglijst voor Toolaanroepen

AI BENCHY Categorie

Zie welke AI-modellen het best presteren op Toolaanroepen, welke betrouwbaar blijven en waar de grootste verschillen zitten. Sorteren op: Correcte tests ↑.

Getoonde modellen

Gemiddelde Toolaanroepen-score

8.7

Beste model

GPT-5.2 4.7

Foutredenen

Met foutreden API-fout16 Met foutreden Ongeldige toolaanroep7 Met foutreden Instructies niet gevolgd6 Met foutreden Geen antwoord2 Met foutreden Verkeerd antwoord2

169/169

Rang	Model	Bedrijf	Toolaanroepen-score	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#22	GPT-5.2 medium	OpenAI	4.7	8.4	$0.548	0/1	10.3s
Totaal tests 1 Foute tests 1 Totale kosten $0.548 Responstijd (gem.) 10.3s
#27	GPT-5.4 Mini medium	OpenAI	4.7	8.0	$0.526	0/1	9.62s
Totaal tests 1 Foute tests 1 Totale kosten $0.526 Responstijd (gem.) 9.62s
#53	Grok 4.20 medium	X AI	3.0	7.3	$0.609	0/1	13.7s
Totaal tests 1 Foute tests 1 Totale kosten $0.609 Responstijd (gem.) 13.7s
#56	GLM 5V Turbo medium	Z.ai	7.0	7.3	$0.457	0/1	12.5s
Totaal tests 1 Foute tests 1 Totale kosten $0.457 Responstijd (gem.) 12.5s
#64	GLM 5.1 medium	Z.ai	3.0	7.1	$0.292	0/1	0ms
Totaal tests 1 Foute tests 1 Totale kosten $0.292 Responstijd (gem.) 0ms
#65	Kimi K2.7 Code medium	Moonshot AI	3.0	7.0	$0.583	0/1	0ms
Totaal tests 1 Foute tests 1 Totale kosten $0.583 Responstijd (gem.) 0ms
#66	Gemini 3.5 Flash none	Google	3.0	7.0	$1.079	0/1	0ms
Totaal tests 1 Foute tests 1 Totale kosten $1.079 Responstijd (gem.) 0ms
#69	Grok 4.20 Beta medium	X AI	3.0	6.8	$0.750	0/1	12.4s
Totaal tests 1 Foute tests 1 Totale kosten $0.750 Responstijd (gem.) 12.4s
#75	Qwen3.6 35B A3B medium	Qwen	3.0	6.7	$0.146	0/1	0ms
Totaal tests 1 Foute tests 1 Totale kosten $0.146 Responstijd (gem.) 0ms
#86	Hy3 preview low	Tencent	2.8	6.4	$0.018	0/1	17.8s
Totaal tests 1 Foute tests 1 Totale kosten $0.018 Responstijd (gem.) 17.8s
#88	Gemma 4 31B medium	Google	3.0	6.3	$0.033	0/1	0ms
Totaal tests 1 Foute tests 1 Totale kosten $0.033 Responstijd (gem.) 0ms
#98	Gemma 4 31B none	Google	3.0	6.1	$0.004	0/1	0ms
Totaal tests 1 Foute tests 1 Totale kosten $0.004 Responstijd (gem.) 0ms
#115	Grok 4.1 Fast medium	X AI	2.8	5.6	$0.069	0/1	27.7s
Totaal tests 1 Foute tests 1 Totale kosten $0.069 Responstijd (gem.) 27.7s
#124	GPT-5.4 Mini none	OpenAI	3.0	5.3	$0.038	0/1	2.32s
Totaal tests 1 Foute tests 1 Totale kosten $0.038 Responstijd (gem.) 2.32s
#127	MiniMax M2.7 medium	Minimax	4.7	5.2	$0.104	0/1	12.0s
Totaal tests 1 Foute tests 1 Totale kosten $0.104 Responstijd (gem.) 12.0s

Toolaanroepen-ranglijst

Modellen filteren

Topmodellen op Toolaanroepen-score

Toolaanroepen-score vs totale kosten

Topmodellen op Responstijd (gem.)