Modelranglijst voor Toolaanroepen

AI BENCHY Categorie

Zie welke AI-modellen het best presteren op Toolaanroepen, welke betrouwbaar blijven en waar de grootste verschillen zitten. Sorteren op: Correcte tests ↓.

Getoonde modellen

Gemiddelde Toolaanroepen-score

8.7

Beste model

Gemini 3.5 Flash 9.8

Foutredenen

Met foutreden API-fout16 Met foutreden Ongeldige toolaanroep7 Met foutreden Instructies niet gevolgd6 Met foutreden Geen antwoord2 Met foutreden Verkeerd antwoord2

169/169

Rang	Model	Bedrijf	Toolaanroepen-score	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#85	Gemini 3.1 Flash Lite low	Google	10.0	6.4	$0.028	1/1	5.66s
Totaal tests 1 Foute tests 0 Totale kosten $0.028 Responstijd (gem.) 5.66s
#87	Nemotron 3 Super medium	NVIDIA	10.0	6.3	$0.021	1/1	39.7s
Totaal tests 1 Foute tests 0 Totale kosten $0.021 Responstijd (gem.) 39.7s
#89	Qwen3.5-35B-A3B medium	Qwen	10.0	6.3	$0.401	1/1	4.65s
Totaal tests 1 Foute tests 0 Totale kosten $0.401 Responstijd (gem.) 4.65s
#90	GPT-5.5 none	OpenAI	10.0	6.3	$0.231	1/1	3.90s
Totaal tests 1 Foute tests 0 Totale kosten $0.231 Responstijd (gem.) 3.90s
#91	Gemini 3 PRO Preview medium	Google	10.0	6.2	$0.385	1/1	12.0s
Totaal tests 1 Foute tests 0 Totale kosten $0.385 Responstijd (gem.) 12.0s
#92	Seed-2.0-Lite none	Bytedance Seed	10.0	6.2	$0.019	1/1	3.94s
Totaal tests 1 Foute tests 0 Totale kosten $0.019 Responstijd (gem.) 3.94s
#93	Gemini 2.5 Flash none	Google	10.0	6.2	$0.016	1/1	1.91s
Totaal tests 1 Foute tests 0 Totale kosten $0.016 Responstijd (gem.) 1.91s
#94	Gemini 3.1 Flash Lite minimal	Google	10.0	6.1	$0.013	1/1	3.51s
Totaal tests 1 Foute tests 0 Totale kosten $0.013 Responstijd (gem.) 3.51s
#95	Gemini 3.1 Flash Lite Preview high	Google	10.0	6.1	$2.310	1/1	7.73s
Totaal tests 1 Foute tests 0 Totale kosten $2.310 Responstijd (gem.) 7.73s
#96	Gemini 3.1 Flash Lite none	Google	10.0	6.1	$0.013	1/1	2.97s
Totaal tests 1 Foute tests 0 Totale kosten $0.013 Responstijd (gem.) 2.97s
#97	Qwen3.5-Flash none	Qwen	10.0	6.1	$0.005	1/1	3.67s
Totaal tests 1 Foute tests 0 Totale kosten $0.005 Responstijd (gem.) 3.67s
#99	Nemotron 3 Ultra 550b A55b none	NVIDIA	10.0	6.1	$0.027	1/1	2.99s
Totaal tests 1 Foute tests 0 Totale kosten $0.027 Responstijd (gem.) 2.99s
#100	Qwen3.6 Max Preview none	Qwen	10.0	6.0	$0.075	1/1	5.27s
Totaal tests 1 Foute tests 0 Totale kosten $0.075 Responstijd (gem.) 5.27s
#101	GLM 5 none	Z.ai	10.0	6.0	$0.027	1/1	11.1s
Totaal tests 1 Foute tests 0 Totale kosten $0.027 Responstijd (gem.) 11.1s
#102	Qwen3.6 Flash none	Qwen	10.0	6.0	$0.015	1/1	2.49s
Totaal tests 1 Foute tests 0 Totale kosten $0.015 Responstijd (gem.) 2.49s

Toolaanroepen-ranglijst

Modellen filteren

Topmodellen op Toolaanroepen-score

Toolaanroepen-score vs totale kosten

Topmodellen op Responstijd (gem.)