Modelranglijst voor Toolaanroepen

AI BENCHY Categorie

Zie welke AI-modellen het best presteren op Toolaanroepen, welke betrouwbaar blijven en waar de grootste verschillen zitten. Sorteren op: Totale kosten ↓.

Getoonde modellen

Gemiddelde Toolaanroepen-score

8.7

Beste model

Grok 4.20 Multi Agent Beta 3.0

Foutredenen

Met foutreden API-fout16 Met foutreden Ongeldige toolaanroep7 Met foutreden Instructies niet gevolgd6 Met foutreden Geen antwoord2 Met foutreden Verkeerd antwoord2

169/169

Rang	Model	Bedrijf	Toolaanroepen-score	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#109	Mimo V2 PRO none	Xiaomi	10.0	5.8	$0.045	1/1	4.39s
Totaal tests 1 Foute tests 0 Totale kosten $0.045 Responstijd (gem.) 4.39s
#59	Gemma 4 26B A4B medium	Google	10.0	7.2	$0.045	1/1	9.01s
Totaal tests 1 Foute tests 0 Totale kosten $0.045 Responstijd (gem.) 9.01s
#48	DeepSeek V3.2 medium	DeepSeek	10.0	7.5	$0.044	1/1	34.8s
Totaal tests 1 Foute tests 0 Totale kosten $0.044 Responstijd (gem.) 34.8s
#50	Seed-2.0-Mini medium	Bytedance Seed	10.0	7.4	$0.044	1/1	88.7s
Totaal tests 1 Foute tests 0 Totale kosten $0.044 Responstijd (gem.) 88.7s
#62	MiMo-V2-Flash medium	Xiaomi	10.0	7.1	$0.043	1/1	27.8s
Totaal tests 1 Foute tests 0 Totale kosten $0.043 Responstijd (gem.) 27.8s
#124	GPT-5.4 Mini none	OpenAI	3.0	5.3	$0.038	0/1	2.32s
Totaal tests 1 Foute tests 1 Totale kosten $0.038 Responstijd (gem.) 2.32s
#165	Qwen3.5-9B medium	Qwen	10.0	3.8	$0.036	1/1	4.31s
Totaal tests 1 Foute tests 0 Totale kosten $0.036 Responstijd (gem.) 4.31s
#58	DeepSeek V4 Pro none	DeepSeek	10.0	7.2	$0.034	1/1	7.40s
Totaal tests 1 Foute tests 0 Totale kosten $0.034 Responstijd (gem.) 7.40s
#72	Ring-2.6-1T medium	Inclusionai	10.0	6.8	$0.033	1/1	104.4s
Totaal tests 1 Foute tests 0 Totale kosten $0.033 Responstijd (gem.) 104.4s
#88	Gemma 4 31B medium	Google	3.0	6.3	$0.033	0/1	0ms
Totaal tests 1 Foute tests 1 Totale kosten $0.033 Responstijd (gem.) 0ms
#122	Qwen3.5 Plus 2026-04-20 none	Qwen	10.0	5.5	$0.032	1/1	4.42s
Totaal tests 1 Foute tests 0 Totale kosten $0.032 Responstijd (gem.) 4.42s
#128	Qwen3.6 35B A3B none	Qwen	3.0	5.2	$0.031	0/1	0ms
Totaal tests 1 Foute tests 1 Totale kosten $0.031 Responstijd (gem.) 0ms
#120	Qwen3.6 27B none	Qwen	9.5	5.5	$0.028	1/1	6.74s
Totaal tests 1 Foute tests 0 Totale kosten $0.028 Responstijd (gem.) 6.74s
#85	Gemini 3.1 Flash Lite low	Google	10.0	6.4	$0.028	1/1	5.66s
Totaal tests 1 Foute tests 0 Totale kosten $0.028 Responstijd (gem.) 5.66s
#118	Kimi K2.5 none	Moonshot AI	10.0	5.5	$0.027	1/1	14.0s
Totaal tests 1 Foute tests 0 Totale kosten $0.027 Responstijd (gem.) 14.0s

Toolaanroepen-ranglijst

Modellen filteren

Topmodellen op Toolaanroepen-score

Toolaanroepen-score vs totale kosten

Topmodellen op Responstijd (gem.)