Modell-Ranking für Werkzeugaufrufe

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Werkzeugaufrufe am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen.

Angezeigte Modelle

Durchschnittlicher Wert für Werkzeugaufrufe-Score

8.7

Bestes Modell

Fehlergründe

Mit Fehlergrund API-Fehler15 Mit Fehlergrund Ungültiger Werkzeugaufruf7 Mit Fehlergrund Anweisungen nicht befolgt6 Mit Fehlergrund Falsche Antwort2 Mit Fehlergrund Keine Antwort2

Rang	Modell	Unternehmen	Werkzeugaufrufe-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#151	Trinity Large Preview none	Arcee AI	10.0	4.6	1/1	6.67s
#152	MiMo-V2-Flash none	Xiaomi	10.0	4.6	1/1	2.28s
#154	Qwen3.5-9B none	Qwen	10.0	4.6	1/1	1.27s
#155	Mercury 2 none	Inception	10.0	4.5	1/1	1.27s
#156	Hy3 preview none	Tencent	10.0	4.4	1/1	33.8s
#158	GLM 4.7 Flash medium	Z.ai	10.0	4.4	1/1	15.9s
#161	Qwen3.5-9B medium	Qwen	10.0	4.2	1/1	4.31s
#163	Granite 4.1 8B none	IBM Granite	10.0	4.0	1/1	2.17s
#2	Gemini 3.5 Flash high	Google	9.8	9.6	1/1	4.96s
#99	gpt-oss-120b medium	OpenAI	9.8	6.1	1/1	6.91s
#118	Qwen3.6 27B none	Qwen	9.5	5.6	1/1	6.74s
#59	GLM 5V Turbo medium	Z.ai	7.0	7.2	0/1	12.5s
#42	GPT-5.2 medium	OpenAI	4.7	7.5	0/1	10.3s
#45	GPT-5.4 Mini medium	OpenAI	4.7	7.5	0/1	9.62s
#107	Laguna Xs.2 medium	Poolside	4.7	5.8	0/1	3.39s

Werkzeugaufrufe-Ranking