Modelranglijst voor Toolaanroepen

AI BENCHY Categorie

Zie welke AI-modellen het best presteren op Toolaanroepen, welke betrouwbaar blijven en waar de grootste verschillen zitten. Sorteren op: Totale kosten ↓.

Getoonde modellen

Gemiddelde Toolaanroepen-score

8.7

Beste model

Grok 4.20 Multi Agent Beta 3.0

Foutredenen

Met foutreden API-fout16 Met foutreden Ongeldige toolaanroep7 Met foutreden Instructies niet gevolgd6 Met foutreden Geen antwoord2 Met foutreden Verkeerd antwoord2

169/169

Rang	Model	Bedrijf	Toolaanroepen-score	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#148	Qwen3 Coder Next medium	Qwen	10.0	4.7	$0.008	1/1	2.64s
Totaal tests 1 Foute tests 0 Totale kosten $0.008 Responstijd (gem.) 2.64s
#137	Trinity Large Preview none	Arcee AI	10.0	5.0	$0.008	1/1	6.67s
Totaal tests 1 Foute tests 0 Totale kosten $0.008 Responstijd (gem.) 6.67s
#161	Grok 4.1 Fast none	X AI	2.8	4.0	$0.008	0/1	5.51s
Totaal tests 1 Foute tests 1 Totale kosten $0.008 Responstijd (gem.) 5.51s
#117	DeepSeek V4 Flash none	DeepSeek	10.0	5.5	$0.007	1/1	77.9s
Totaal tests 1 Foute tests 0 Totale kosten $0.007 Responstijd (gem.) 77.9s
#129	Mistral Small 4 none	Mistral	10.0	5.1	$0.007	1/1	1.40s
Totaal tests 1 Foute tests 0 Totale kosten $0.007 Responstijd (gem.) 1.40s
#134	MiMo-V2.5 none	Xiaomi	10.0	5.1	$0.007	1/1	2.43s
Totaal tests 1 Foute tests 0 Totale kosten $0.007 Responstijd (gem.) 2.43s
#142	Nemotron 3 Super none	NVIDIA	4.7	4.9	$0.007	0/1	16.0s
Totaal tests 1 Foute tests 1 Totale kosten $0.007 Responstijd (gem.) 16.0s
#139	GPT-4o-mini none	OpenAI	10.0	5.0	$0.006	1/1	2.51s
Totaal tests 1 Foute tests 0 Totale kosten $0.006 Responstijd (gem.) 2.51s
#135	Qwen3.5-9B none	Qwen	10.0	5.1	$0.006	1/1	1.27s
Totaal tests 1 Foute tests 0 Totale kosten $0.006 Responstijd (gem.) 1.27s
#147	Ling-2.6-1T none	Inclusionai	3.0	4.7	$0.005	0/1	25.7s
Totaal tests 1 Foute tests 1 Totale kosten $0.005 Responstijd (gem.) 25.7s
#97	Qwen3.5-Flash none	Qwen	10.0	6.1	$0.005	1/1	3.67s
Totaal tests 1 Foute tests 0 Totale kosten $0.005 Responstijd (gem.) 3.67s
#141	GLM 4.7 Flash none	Z.ai	2.8	4.9	$0.004	0/1	7.05s
Totaal tests 1 Foute tests 1 Totale kosten $0.004 Responstijd (gem.) 7.05s
#121	Gemma 4 26B A4B none	Google	10.0	5.5	$0.004	1/1	57.1s
Totaal tests 1 Foute tests 0 Totale kosten $0.004 Responstijd (gem.) 57.1s
#98	Gemma 4 31B none	Google	3.0	6.1	$0.004	0/1	0ms
Totaal tests 1 Foute tests 1 Totale kosten $0.004 Responstijd (gem.) 0ms
#163	Granite 4.1 8B none	IBM Granite	10.0	4.0	$0.003	1/1	2.17s
Totaal tests 1 Foute tests 0 Totale kosten $0.003 Responstijd (gem.) 2.17s

←

1 9 10 11 12

→

Toolaanroepen-ranglijst

Modellen filteren

Topmodellen op Toolaanroepen-score

Toolaanroepen-score vs totale kosten

Topmodellen op Responstijd (gem.)