Modell-Ranking für Werkzeugaufrufe

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Werkzeugaufrufe am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Korrekte Tests ↑.

Angezeigte Modelle

Durchschnittlicher Wert für Werkzeugaufrufe-Score

8.7

Bestes Modell

Grok 4.20 Beta 3.0

Fehlergründe

Mit Fehlergrund API-Fehler15 Mit Fehlergrund Ungültiger Werkzeugaufruf7 Mit Fehlergrund Anweisungen nicht befolgt6 Mit Fehlergrund Falsche Antwort2 Mit Fehlergrund Keine Antwort2

Rang	Modell	Unternehmen	Werkzeugaufrufe-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#13	Grok 4.20 Beta medium	X AI	3.0	8.5	0/1	12.4s
#20	Gemini 3.5 Flash none	Google	3.0	8.1	0/1	0ms
#27	Gemma 4 31B medium	Google	3.0	7.8	0/1	0ms
#42	GPT-5.2 medium	OpenAI	4.7	7.5	0/1	10.3s
#45	GPT-5.4 Mini medium	OpenAI	4.7	7.5	0/1	9.62s
#46	Qwen3.6 35B A3B medium	Qwen	3.0	7.4	0/1	0ms
#55	GLM 5.1 medium	Z.ai	3.0	7.3	0/1	0ms
#59	GLM 5V Turbo medium	Z.ai	7.0	7.2	0/1	12.5s
#65	Grok 4.20 medium	X AI	3.0	7.1	0/1	13.7s
#83	Step 3.5 Flash none	Stepfun	3.0	6.6	0/1	0ms
#84	Grok 4.20 Multi Agent Beta medium	X AI	3.0	6.6	0/1	0ms
#85	Gemma 4 31B none	Google	3.0	6.5	0/1	0ms
#86	Grok 4.1 Fast medium	X AI	2.8	6.5	0/1	27.7s
#89	Hy3 preview low	Tencent	2.8	6.4	0/1	17.8s
#96	Ring-2.6-1T none	Inclusionai	3.0	6.2	0/1	0ms

Werkzeugaufrufe-Ranking

Top-Modelle nach Werkzeugaufrufe-Score

Werkzeugaufrufe-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)