Modelranglijst voor Toolaanroepen

AI BENCHY Categorie

Zie welke AI-modellen het best presteren op Toolaanroepen, welke betrouwbaar blijven en waar de grootste verschillen zitten. Sorteren op: Totale kosten ↑.

Getoonde modellen

Gemiddelde Toolaanroepen-score

8.7

Beste model

North Mini Code 10.0

Foutredenen

Met foutreden API-fout16 Met foutreden Ongeldige toolaanroep7 Met foutreden Instructies niet gevolgd6 Met foutreden Geen antwoord2 Met foutreden Verkeerd antwoord2

169/169

Rang	Model	Bedrijf	Toolaanroepen-score	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#106	Qwen3.5 Plus 2026-02-15 none	Qwen	10.0	5.8	$0.016	1/1	3.33s
Totaal tests 1 Foute tests 0 Totale kosten $0.016 Responstijd (gem.) 3.33s
#119	MiMo-V2.5-Pro none	Xiaomi	10.0	5.5	$0.017	1/1	3.30s
Totaal tests 1 Foute tests 0 Totale kosten $0.017 Responstijd (gem.) 3.30s
#126	DeepSeek V3.2 none	DeepSeek	10.0	5.3	$0.017	1/1	11.8s
Totaal tests 1 Foute tests 0 Totale kosten $0.017 Responstijd (gem.) 11.8s
#84	Gemini 3.1 Flash Lite Preview none	Google	10.0	6.4	$0.018	1/1	3.39s
Totaal tests 1 Foute tests 0 Totale kosten $0.018 Responstijd (gem.) 3.39s
#86	Hy3 preview low	Tencent	2.8	6.4	$0.018	0/1	17.8s
Totaal tests 1 Foute tests 1 Totale kosten $0.018 Responstijd (gem.) 17.8s
#92	Seed-2.0-Lite none	Bytedance Seed	10.0	6.2	$0.019	1/1	3.94s
Totaal tests 1 Foute tests 0 Totale kosten $0.019 Responstijd (gem.) 3.94s
#125	Qwen3.5-122B-A10B none	Qwen	10.0	5.3	$0.020	1/1	2.04s
Totaal tests 1 Foute tests 0 Totale kosten $0.020 Responstijd (gem.) 2.04s
#168	Step 3.5 Flash none	Stepfun	3.0	2.6	$0.020	0/1	0ms
Totaal tests 1 Foute tests 1 Totale kosten $0.020 Responstijd (gem.) 0ms
#87	Nemotron 3 Super medium	NVIDIA	10.0	6.3	$0.021	1/1	39.7s
Totaal tests 1 Foute tests 0 Totale kosten $0.021 Responstijd (gem.) 39.7s
#114	Mimo V2 Omni none	Xiaomi	10.0	5.7	$0.021	1/1	5.40s
Totaal tests 1 Foute tests 0 Totale kosten $0.021 Responstijd (gem.) 5.40s
#54	Hy3 preview medium	Tencent	10.0	7.3	$0.021	1/1	15.0s
Totaal tests 1 Foute tests 0 Totale kosten $0.021 Responstijd (gem.) 15.0s
#60	Qwen3.7 Plus none	Qwen	10.0	7.2	$0.023	1/1	3.54s
Totaal tests 1 Foute tests 0 Totale kosten $0.023 Responstijd (gem.) 3.54s
#67	Gemini 3 Flash Preview none	Google	10.0	6.9	$0.025	1/1	3.35s
Totaal tests 1 Foute tests 0 Totale kosten $0.025 Responstijd (gem.) 3.35s
#159	MiMo-V2-Flash none	Xiaomi	10.0	4.3	$0.025	1/1	2.28s
Totaal tests 1 Foute tests 0 Totale kosten $0.025 Responstijd (gem.) 2.28s
#82	Gemini 3.1 Flash Lite Preview low	Google	10.0	6.5	$0.026	1/1	9.54s
Totaal tests 1 Foute tests 0 Totale kosten $0.026 Responstijd (gem.) 9.54s

Toolaanroepen-ranglijst

Modellen filteren

Topmodellen op Toolaanroepen-score

Toolaanroepen-score vs totale kosten

Topmodellen op Responstijd (gem.)