Modelranglijst voor Toolaanroepen

AI BENCHY Categorie

Zie welke AI-modellen het best presteren op Toolaanroepen, welke betrouwbaar blijven en waar de grootste verschillen zitten. Sorteren op: Totale kosten ↑.

Getoonde modellen

Gemiddelde Toolaanroepen-score

8.7

Beste model

North Mini Code 10.0

Foutredenen

Met foutreden API-fout16 Met foutreden Ongeldige toolaanroep7 Met foutreden Instructies niet gevolgd6 Met foutreden Geen antwoord2 Met foutreden Verkeerd antwoord2

169/169

Rang	Model	Bedrijf	Toolaanroepen-score	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#95	Gemini 3.1 Flash Lite Preview high	Google	10.0	6.1	$2.310	1/1	7.73s
Totaal tests 1 Foute tests 0 Totale kosten $2.310 Responstijd (gem.) 7.73s
#6	Claude Fable 5 medium	Anthropic	10.0	9.2	$3.165	1/1	17.0s
Totaal tests 1 Foute tests 0 Totale kosten $3.165 Responstijd (gem.) 17.0s
#9	GPT-5.5 medium	OpenAI	10.0	9.0	$3.679	1/1	10.6s
Totaal tests 1 Foute tests 0 Totale kosten $3.679 Responstijd (gem.) 10.6s
#136	Grok 4.20 Multi Agent Beta medium	X AI	3.0	5.0	$5.599	0/1	0ms
Totaal tests 1 Foute tests 1 Totale kosten $5.599 Responstijd (gem.) 0ms

Toolaanroepen-ranglijst

Modellen filteren

Topmodellen op Toolaanroepen-score

Toolaanroepen-score vs totale kosten

Topmodellen op Responstijd (gem.)