Modelranglijst voor Toolaanroepen

AI BENCHY Categorie

Zie welke AI-modellen het best presteren op Toolaanroepen, welke betrouwbaar blijven en waar de grootste verschillen zitten. Sorteren op: Responstijd (gem.) ↑.

Getoonde modellen

Gemiddelde Toolaanroepen-score

8.7

Beste model

GLM 5.1 3.0

Foutredenen

Met foutreden API-fout16 Met foutreden Ongeldige toolaanroep7 Met foutreden Instructies niet gevolgd6 Met foutreden Geen antwoord2 Met foutreden Verkeerd antwoord2

169/169

Rang	Model	Bedrijf	Toolaanroepen-score	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#117	DeepSeek V4 Flash none	DeepSeek	10.0	5.5	$0.007	1/1	77.9s
Totaal tests 1 Foute tests 0 Totale kosten $0.007 Responstijd (gem.) 77.9s
#74	Hy3 preview high	Tencent	10.0	6.8	$0.059	1/1	78.8s
Totaal tests 1 Foute tests 0 Totale kosten $0.059 Responstijd (gem.) 78.8s
#50	Seed-2.0-Mini medium	Bytedance Seed	10.0	7.4	$0.044	1/1	88.7s
Totaal tests 1 Foute tests 0 Totale kosten $0.044 Responstijd (gem.) 88.7s
#72	Ring-2.6-1T medium	Inclusionai	10.0	6.8	$0.033	1/1	104.4s
Totaal tests 1 Foute tests 0 Totale kosten $0.033 Responstijd (gem.) 104.4s

Toolaanroepen-ranglijst

Modellen filteren

Topmodellen op Toolaanroepen-score

Toolaanroepen-score vs totale kosten

Topmodellen op Responstijd (gem.)