Modelranglijst voor Toolaanroepen

AI BENCHY Categorie

Zie welke AI-modellen het best presteren op Toolaanroepen, welke betrouwbaar blijven en waar de grootste verschillen zitten. Sorteren op: Totale kosten ↑.

Getoonde modellen

Gemiddelde Toolaanroepen-score

8.7

Beste model

North Mini Code 10.0

Foutredenen

Met foutreden API-fout16 Met foutreden Ongeldige toolaanroep7 Met foutreden Instructies niet gevolgd6 Met foutreden Geen antwoord2 Met foutreden Verkeerd antwoord2

169/169

Rang	Model	Bedrijf	Toolaanroepen-score	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#144	Ring-2.6-1T none	Inclusionai	3.0	4.8	$0.026	0/1	0ms
Totaal tests 1 Foute tests 1 Totale kosten $0.026 Responstijd (gem.) 0ms
#101	GLM 5 none	Z.ai	10.0	6.0	$0.027	1/1	11.1s
Totaal tests 1 Foute tests 0 Totale kosten $0.027 Responstijd (gem.) 11.1s
#23	DeepSeek V4 Flash high	DeepSeek	10.0	8.3	$0.027	1/1	74.7s
Totaal tests 1 Foute tests 0 Totale kosten $0.027 Responstijd (gem.) 74.7s
#99	Nemotron 3 Ultra 550b A55b none	NVIDIA	10.0	6.1	$0.027	1/1	2.99s
Totaal tests 1 Foute tests 0 Totale kosten $0.027 Responstijd (gem.) 2.99s
#118	Kimi K2.5 none	Moonshot AI	10.0	5.5	$0.027	1/1	14.0s
Totaal tests 1 Foute tests 0 Totale kosten $0.027 Responstijd (gem.) 14.0s
#85	Gemini 3.1 Flash Lite low	Google	10.0	6.4	$0.028	1/1	5.66s
Totaal tests 1 Foute tests 0 Totale kosten $0.028 Responstijd (gem.) 5.66s
#120	Qwen3.6 27B none	Qwen	9.5	5.5	$0.028	1/1	6.74s
Totaal tests 1 Foute tests 0 Totale kosten $0.028 Responstijd (gem.) 6.74s
#128	Qwen3.6 35B A3B none	Qwen	3.0	5.2	$0.031	0/1	0ms
Totaal tests 1 Foute tests 1 Totale kosten $0.031 Responstijd (gem.) 0ms
#122	Qwen3.5 Plus 2026-04-20 none	Qwen	10.0	5.5	$0.032	1/1	4.42s
Totaal tests 1 Foute tests 0 Totale kosten $0.032 Responstijd (gem.) 4.42s
#88	Gemma 4 31B medium	Google	3.0	6.3	$0.033	0/1	0ms
Totaal tests 1 Foute tests 1 Totale kosten $0.033 Responstijd (gem.) 0ms
#72	Ring-2.6-1T medium	Inclusionai	10.0	6.8	$0.033	1/1	104.4s
Totaal tests 1 Foute tests 0 Totale kosten $0.033 Responstijd (gem.) 104.4s
#58	DeepSeek V4 Pro none	DeepSeek	10.0	7.2	$0.034	1/1	7.40s
Totaal tests 1 Foute tests 0 Totale kosten $0.034 Responstijd (gem.) 7.40s
#165	Qwen3.5-9B medium	Qwen	10.0	3.8	$0.036	1/1	4.31s
Totaal tests 1 Foute tests 0 Totale kosten $0.036 Responstijd (gem.) 4.31s
#124	GPT-5.4 Mini none	OpenAI	3.0	5.3	$0.038	0/1	2.32s
Totaal tests 1 Foute tests 1 Totale kosten $0.038 Responstijd (gem.) 2.32s
#62	MiMo-V2-Flash medium	Xiaomi	10.0	7.1	$0.043	1/1	27.8s
Totaal tests 1 Foute tests 0 Totale kosten $0.043 Responstijd (gem.) 27.8s

Toolaanroepen-ranglijst

Modellen filteren

Topmodellen op Toolaanroepen-score

Toolaanroepen-score vs totale kosten

Topmodellen op Responstijd (gem.)