Modelranglijst voor Toolaanroepen

AI BENCHY Categorie

Zie welke AI-modellen het best presteren op Toolaanroepen, welke betrouwbaar blijven en waar de grootste verschillen zitten. Sorteren op: Responstijd (gem.) ↑.

Getoonde modellen

Gemiddelde Toolaanroepen-score

8.7

Beste model

GLM 5.1 3.0

Foutredenen

Met foutreden API-fout16 Met foutreden Ongeldige toolaanroep7 Met foutreden Instructies niet gevolgd6 Met foutreden Geen antwoord2 Met foutreden Verkeerd antwoord2

169/169

Rang	Model	Bedrijf	Toolaanroepen-score	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#16	GPT-5 Mini medium	OpenAI	10.0	8.5	$0.159	1/1	18.6s
Totaal tests 1 Foute tests 0 Totale kosten $0.159 Responstijd (gem.) 18.6s
#143	Ling-2.6-flash none	Inclusionai	3.0	4.9	$0.001	0/1	18.8s
Totaal tests 1 Foute tests 1 Totale kosten $0.001 Responstijd (gem.) 18.8s
#14	GLM 5.2 medium	Z.ai	10.0	8.7	$0.324	1/1	20.4s
Totaal tests 1 Foute tests 0 Totale kosten $0.324 Responstijd (gem.) 20.4s
#110	Owl Alpha none	Openrouter	10.0	5.8	$0.000	1/1	22.8s
Totaal tests 1 Foute tests 0 Totale kosten $0.000 Responstijd (gem.) 22.8s
#7	Gemini 3.1 Pro Preview medium	Google	10.0	9.2	$1.054	1/1	23.1s
Totaal tests 1 Foute tests 0 Totale kosten $1.054 Responstijd (gem.) 23.1s
#147	Ling-2.6-1T none	Inclusionai	3.0	4.7	$0.005	0/1	25.7s
Totaal tests 1 Foute tests 1 Totale kosten $0.005 Responstijd (gem.) 25.7s
#115	Grok 4.1 Fast medium	X AI	2.8	5.6	$0.069	0/1	27.7s
Totaal tests 1 Foute tests 1 Totale kosten $0.069 Responstijd (gem.) 27.7s
#62	MiMo-V2-Flash medium	Xiaomi	10.0	7.1	$0.043	1/1	27.8s
Totaal tests 1 Foute tests 0 Totale kosten $0.043 Responstijd (gem.) 27.8s
#43	Kimi K2.5 medium	Moonshot AI	10.0	7.5	$0.348	1/1	31.7s
Totaal tests 1 Foute tests 0 Totale kosten $0.348 Responstijd (gem.) 31.7s
#79	GPT-5 Nano medium	OpenAI	10.0	6.7	$0.081	1/1	33.3s
Totaal tests 1 Foute tests 0 Totale kosten $0.081 Responstijd (gem.) 33.3s
#158	Hy3 preview none	Tencent	10.0	4.3	$0.003	1/1	33.8s
Totaal tests 1 Foute tests 0 Totale kosten $0.003 Responstijd (gem.) 33.8s
#48	DeepSeek V3.2 medium	DeepSeek	10.0	7.5	$0.044	1/1	34.8s
Totaal tests 1 Foute tests 0 Totale kosten $0.044 Responstijd (gem.) 34.8s
#87	Nemotron 3 Super medium	NVIDIA	10.0	6.3	$0.021	1/1	39.7s
Totaal tests 1 Foute tests 0 Totale kosten $0.021 Responstijd (gem.) 39.7s
#121	Gemma 4 26B A4B none	Google	10.0	5.5	$0.004	1/1	57.1s
Totaal tests 1 Foute tests 0 Totale kosten $0.004 Responstijd (gem.) 57.1s
#23	DeepSeek V4 Flash high	DeepSeek	10.0	8.3	$0.027	1/1	74.7s
Totaal tests 1 Foute tests 0 Totale kosten $0.027 Responstijd (gem.) 74.7s

Toolaanroepen-ranglijst

Modellen filteren

Topmodellen op Toolaanroepen-score

Toolaanroepen-score vs totale kosten

Topmodellen op Responstijd (gem.)