Modelranglijst voor Toolaanroepen

AI BENCHY Categorie

Zie welke AI-modellen het best presteren op Toolaanroepen, welke betrouwbaar blijven en waar de grootste verschillen zitten. Sorteren op: Correcte tests ↓.

Getoonde modellen

Gemiddelde Toolaanroepen-score

8.7

Beste model

Gemini 3.5 Flash 9.8

Foutredenen

Met foutreden API-fout16 Met foutreden Ongeldige toolaanroep7 Met foutreden Instructies niet gevolgd6 Met foutreden Geen antwoord2 Met foutreden Verkeerd antwoord2

169/169

Rang	Model	Bedrijf	Toolaanroepen-score	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#48	DeepSeek V3.2 medium	DeepSeek	10.0	7.5	$0.044	1/1	34.8s
Totaal tests 1 Foute tests 0 Totale kosten $0.044 Responstijd (gem.) 34.8s
#49	Claude Opus 4.7 none	Anthropic	10.0	7.4	$0.505	1/1	4.74s
Totaal tests 1 Foute tests 0 Totale kosten $0.505 Responstijd (gem.) 4.74s
#50	Seed-2.0-Mini medium	Bytedance Seed	10.0	7.4	$0.044	1/1	88.7s
Totaal tests 1 Foute tests 0 Totale kosten $0.044 Responstijd (gem.) 88.7s
#51	MiMo-V2.5-Pro medium	Xiaomi	10.0	7.4	$0.106	1/1	16.9s
Totaal tests 1 Foute tests 0 Totale kosten $0.106 Responstijd (gem.) 16.9s
#52	Gemini 3 Flash Preview low	Google	10.0	7.4	$0.111	1/1	4.99s
Totaal tests 1 Foute tests 0 Totale kosten $0.111 Responstijd (gem.) 4.99s
#54	Hy3 preview medium	Tencent	10.0	7.3	$0.021	1/1	15.0s
Totaal tests 1 Foute tests 0 Totale kosten $0.021 Responstijd (gem.) 15.0s
#55	Claude Sonnet 4.6 none	Anthropic	10.0	7.3	$0.316	1/1	4.11s
Totaal tests 1 Foute tests 0 Totale kosten $0.316 Responstijd (gem.) 4.11s
#57	Claude Opus 4.8 none	Anthropic	10.0	7.2	$0.539	1/1	5.35s
Totaal tests 1 Foute tests 0 Totale kosten $0.539 Responstijd (gem.) 5.35s
#58	DeepSeek V4 Pro none	DeepSeek	10.0	7.2	$0.034	1/1	7.40s
Totaal tests 1 Foute tests 0 Totale kosten $0.034 Responstijd (gem.) 7.40s
#59	Gemma 4 26B A4B medium	Google	10.0	7.2	$0.045	1/1	9.01s
Totaal tests 1 Foute tests 0 Totale kosten $0.045 Responstijd (gem.) 9.01s
#60	Qwen3.7 Plus none	Qwen	10.0	7.2	$0.023	1/1	3.54s
Totaal tests 1 Foute tests 0 Totale kosten $0.023 Responstijd (gem.) 3.54s
#61	GLM 5.2 none	Z.ai	10.0	7.1	$0.076	1/1	15.8s
Totaal tests 1 Foute tests 0 Totale kosten $0.076 Responstijd (gem.) 15.8s
#62	MiMo-V2-Flash medium	Xiaomi	10.0	7.1	$0.043	1/1	27.8s
Totaal tests 1 Foute tests 0 Totale kosten $0.043 Responstijd (gem.) 27.8s
#63	Step 3.7 Flash high	Stepfun	10.0	7.1	$1.148	1/1	2.79s
Totaal tests 1 Foute tests 0 Totale kosten $1.148 Responstijd (gem.) 2.79s
#67	Gemini 3 Flash Preview none	Google	10.0	6.9	$0.025	1/1	3.35s
Totaal tests 1 Foute tests 0 Totale kosten $0.025 Responstijd (gem.) 3.35s

Toolaanroepen-ranglijst

Modellen filteren

Topmodellen op Toolaanroepen-score

Toolaanroepen-score vs totale kosten

Topmodellen op Responstijd (gem.)