Modelranglijst voor Toolaanroepen

AI BENCHY Categorie

Zie welke AI-modellen het best presteren op Toolaanroepen, welke betrouwbaar blijven en waar de grootste verschillen zitten. Sorteren op: Correcte tests ↓.

Getoonde modellen

Gemiddelde Toolaanroepen-score

8.7

Beste model

Gemini 3.5 Flash 9.8

Foutredenen

Met foutreden API-fout16 Met foutreden Ongeldige toolaanroep7 Met foutreden Instructies niet gevolgd6 Met foutreden Geen antwoord2 Met foutreden Verkeerd antwoord2

169/169

Rang	Model	Bedrijf	Toolaanroepen-score	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#138	Laguna M.1 medium	Poolside	10.0	5.0	$0.000	1/1	6.31s
Totaal tests 1 Foute tests 0 Totale kosten $0.000 Responstijd (gem.) 6.31s
#139	GPT-4o-mini none	OpenAI	10.0	5.0	$0.006	1/1	2.51s
Totaal tests 1 Foute tests 0 Totale kosten $0.006 Responstijd (gem.) 2.51s
#140	Cobuddy medium	Baidu	10.0	4.9	$0.000	1/1	11.2s
Totaal tests 1 Foute tests 0 Totale kosten $0.000 Responstijd (gem.) 11.2s
#145	GPT-5.4 Nano none	OpenAI	10.0	4.8	$0.011	1/1	3.40s
Totaal tests 1 Foute tests 0 Totale kosten $0.011 Responstijd (gem.) 3.40s
#146	MiniMax M2.5 medium	Minimax	10.0	4.7	$0.303	1/1	15.4s
Totaal tests 1 Foute tests 0 Totale kosten $0.303 Responstijd (gem.) 15.4s
#148	Qwen3 Coder Next medium	Qwen	10.0	4.7	$0.008	1/1	2.64s
Totaal tests 1 Foute tests 0 Totale kosten $0.008 Responstijd (gem.) 2.64s
#149	Grok 4.20 Beta none	X AI	10.0	4.7	$0.087	1/1	4.79s
Totaal tests 1 Foute tests 0 Totale kosten $0.087 Responstijd (gem.) 4.79s
#150	Laguna M.1 none	Poolside	10.0	4.6	$0.000	1/1	7.54s
Totaal tests 1 Foute tests 0 Totale kosten $0.000 Responstijd (gem.) 7.54s
#151	Mercury 2 none	Inception	10.0	4.6	$0.011	1/1	1.27s
Totaal tests 1 Foute tests 0 Totale kosten $0.011 Responstijd (gem.) 1.27s
#154	Hunter Alpha none	OpenRouter	10.0	4.5	$0.000	1/1	6.02s
Totaal tests 1 Foute tests 0 Totale kosten $0.000 Responstijd (gem.) 6.02s
#155	Grok 4.20 none	X AI	10.0	4.4	$0.057	1/1	4.63s
Totaal tests 1 Foute tests 0 Totale kosten $0.057 Responstijd (gem.) 4.63s
#157	GLM 4.7 Flash medium	Z.ai	10.0	4.3	$0.054	1/1	15.9s
Totaal tests 1 Foute tests 0 Totale kosten $0.054 Responstijd (gem.) 15.9s
#158	Hy3 preview none	Tencent	10.0	4.3	$0.003	1/1	33.8s
Totaal tests 1 Foute tests 0 Totale kosten $0.003 Responstijd (gem.) 33.8s
#159	MiMo-V2-Flash none	Xiaomi	10.0	4.3	$0.025	1/1	2.28s
Totaal tests 1 Foute tests 0 Totale kosten $0.025 Responstijd (gem.) 2.28s
#163	Granite 4.1 8B none	IBM Granite	10.0	4.0	$0.003	1/1	2.17s
Totaal tests 1 Foute tests 0 Totale kosten $0.003 Responstijd (gem.) 2.17s

Toolaanroepen-ranglijst

Modellen filteren

Topmodellen op Toolaanroepen-score

Toolaanroepen-score vs totale kosten

Topmodellen op Responstijd (gem.)