Modelranglijst voor Toolaanroepen

AI BENCHY Categorie

Zie welke AI-modellen het best presteren op Toolaanroepen, welke betrouwbaar blijven en waar de grootste verschillen zitten. Sorteren op: Totale kosten ↓.

Getoonde modellen

Gemiddelde Toolaanroepen-score

8.7

Beste model

Grok 4.20 Multi Agent Beta 3.0

Foutredenen

Met foutreden API-fout16 Met foutreden Ongeldige toolaanroep7 Met foutreden Instructies niet gevolgd6 Met foutreden Geen antwoord2 Met foutreden Verkeerd antwoord2

169/169

Rang	Model	Bedrijf	Toolaanroepen-score	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#99	Nemotron 3 Ultra 550b A55b none	NVIDIA	10.0	6.1	$0.027	1/1	2.99s
Totaal tests 1 Foute tests 0 Totale kosten $0.027 Responstijd (gem.) 2.99s
#23	DeepSeek V4 Flash high	DeepSeek	10.0	8.3	$0.027	1/1	74.7s
Totaal tests 1 Foute tests 0 Totale kosten $0.027 Responstijd (gem.) 74.7s
#101	GLM 5 none	Z.ai	10.0	6.0	$0.027	1/1	11.1s
Totaal tests 1 Foute tests 0 Totale kosten $0.027 Responstijd (gem.) 11.1s
#144	Ring-2.6-1T none	Inclusionai	3.0	4.8	$0.026	0/1	0ms
Totaal tests 1 Foute tests 1 Totale kosten $0.026 Responstijd (gem.) 0ms
#82	Gemini 3.1 Flash Lite Preview low	Google	10.0	6.5	$0.026	1/1	9.54s
Totaal tests 1 Foute tests 0 Totale kosten $0.026 Responstijd (gem.) 9.54s
#159	MiMo-V2-Flash none	Xiaomi	10.0	4.3	$0.025	1/1	2.28s
Totaal tests 1 Foute tests 0 Totale kosten $0.025 Responstijd (gem.) 2.28s
#67	Gemini 3 Flash Preview none	Google	10.0	6.9	$0.025	1/1	3.35s
Totaal tests 1 Foute tests 0 Totale kosten $0.025 Responstijd (gem.) 3.35s
#60	Qwen3.7 Plus none	Qwen	10.0	7.2	$0.023	1/1	3.54s
Totaal tests 1 Foute tests 0 Totale kosten $0.023 Responstijd (gem.) 3.54s
#54	Hy3 preview medium	Tencent	10.0	7.3	$0.021	1/1	15.0s
Totaal tests 1 Foute tests 0 Totale kosten $0.021 Responstijd (gem.) 15.0s
#114	Mimo V2 Omni none	Xiaomi	10.0	5.7	$0.021	1/1	5.40s
Totaal tests 1 Foute tests 0 Totale kosten $0.021 Responstijd (gem.) 5.40s
#87	Nemotron 3 Super medium	NVIDIA	10.0	6.3	$0.021	1/1	39.7s
Totaal tests 1 Foute tests 0 Totale kosten $0.021 Responstijd (gem.) 39.7s
#168	Step 3.5 Flash none	Stepfun	3.0	2.6	$0.020	0/1	0ms
Totaal tests 1 Foute tests 1 Totale kosten $0.020 Responstijd (gem.) 0ms
#125	Qwen3.5-122B-A10B none	Qwen	10.0	5.3	$0.020	1/1	2.04s
Totaal tests 1 Foute tests 0 Totale kosten $0.020 Responstijd (gem.) 2.04s
#92	Seed-2.0-Lite none	Bytedance Seed	10.0	6.2	$0.019	1/1	3.94s
Totaal tests 1 Foute tests 0 Totale kosten $0.019 Responstijd (gem.) 3.94s
#86	Hy3 preview low	Tencent	2.8	6.4	$0.018	0/1	17.8s
Totaal tests 1 Foute tests 1 Totale kosten $0.018 Responstijd (gem.) 17.8s

Toolaanroepen-ranglijst

Modellen filteren

Topmodellen op Toolaanroepen-score

Toolaanroepen-score vs totale kosten

Topmodellen op Responstijd (gem.)