Modelranglijst voor Toolaanroepen

AI BENCHY Categorie

Zie welke AI-modellen het best presteren op Toolaanroepen, welke betrouwbaar blijven en waar de grootste verschillen zitten. Sorteren op: Correcte tests ↑.

Getoonde modellen

Gemiddelde Toolaanroepen-score

8.7

Beste model

GPT-5.2 4.7

Foutredenen

Met foutreden API-fout16 Met foutreden Ongeldige toolaanroep7 Met foutreden Instructies niet gevolgd6 Met foutreden Geen antwoord2 Met foutreden Verkeerd antwoord2

169/169

Rang	Model	Bedrijf	Toolaanroepen-score	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#45	GPT-5.3 Chat none	OpenAI	10.0	7.5	$0.433	1/1	8.36s
Totaal tests 1 Foute tests 0 Totale kosten $0.433 Responstijd (gem.) 8.36s
#46	GPT-5.4 Nano medium	OpenAI	10.0	7.5	$0.107	1/1	7.71s
Totaal tests 1 Foute tests 0 Totale kosten $0.107 Responstijd (gem.) 7.71s
#47	Qwen3.6 Flash medium	Qwen	10.0	7.5	$0.288	1/1	4.00s
Totaal tests 1 Foute tests 0 Totale kosten $0.288 Responstijd (gem.) 4.00s
#48	DeepSeek V3.2 medium	DeepSeek	10.0	7.5	$0.044	1/1	34.8s
Totaal tests 1 Foute tests 0 Totale kosten $0.044 Responstijd (gem.) 34.8s
#49	Claude Opus 4.7 none	Anthropic	10.0	7.4	$0.505	1/1	4.74s
Totaal tests 1 Foute tests 0 Totale kosten $0.505 Responstijd (gem.) 4.74s
#50	Seed-2.0-Mini medium	Bytedance Seed	10.0	7.4	$0.044	1/1	88.7s
Totaal tests 1 Foute tests 0 Totale kosten $0.044 Responstijd (gem.) 88.7s
#51	MiMo-V2.5-Pro medium	Xiaomi	10.0	7.4	$0.106	1/1	16.9s
Totaal tests 1 Foute tests 0 Totale kosten $0.106 Responstijd (gem.) 16.9s
#52	Gemini 3 Flash Preview low	Google	10.0	7.4	$0.111	1/1	4.99s
Totaal tests 1 Foute tests 0 Totale kosten $0.111 Responstijd (gem.) 4.99s
#54	Hy3 preview medium	Tencent	10.0	7.3	$0.021	1/1	15.0s
Totaal tests 1 Foute tests 0 Totale kosten $0.021 Responstijd (gem.) 15.0s
#55	Claude Sonnet 4.6 none	Anthropic	10.0	7.3	$0.316	1/1	4.11s
Totaal tests 1 Foute tests 0 Totale kosten $0.316 Responstijd (gem.) 4.11s
#57	Claude Opus 4.8 none	Anthropic	10.0	7.2	$0.539	1/1	5.35s
Totaal tests 1 Foute tests 0 Totale kosten $0.539 Responstijd (gem.) 5.35s
#58	DeepSeek V4 Pro none	DeepSeek	10.0	7.2	$0.034	1/1	7.40s
Totaal tests 1 Foute tests 0 Totale kosten $0.034 Responstijd (gem.) 7.40s
#59	Gemma 4 26B A4B medium	Google	10.0	7.2	$0.045	1/1	9.01s
Totaal tests 1 Foute tests 0 Totale kosten $0.045 Responstijd (gem.) 9.01s
#60	Qwen3.7 Plus none	Qwen	10.0	7.2	$0.023	1/1	3.54s
Totaal tests 1 Foute tests 0 Totale kosten $0.023 Responstijd (gem.) 3.54s
#61	GLM 5.2 none	Z.ai	10.0	7.1	$0.076	1/1	15.8s
Totaal tests 1 Foute tests 0 Totale kosten $0.076 Responstijd (gem.) 15.8s

Toolaanroepen-ranglijst

Modellen filteren

Topmodellen op Toolaanroepen-score

Toolaanroepen-score vs totale kosten

Topmodellen op Responstijd (gem.)