Modell-Ranking für Werkzeugaufrufe

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Werkzeugaufrufe am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Korrekte Tests ↑.

Angezeigte Modelle

Durchschnittlicher Wert für Werkzeugaufrufe-Score

8.7

Bestes Modell

Grok 4.20 Beta 3.0

Fehlergründe

Mit Fehlergrund API-Fehler15 Mit Fehlergrund Ungültiger Werkzeugaufruf7 Mit Fehlergrund Anweisungen nicht befolgt6 Mit Fehlergrund Falsche Antwort2 Mit Fehlergrund Keine Antwort2

Rang	Modell	Unternehmen	Werkzeugaufrufe-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#15	GPT-5.3-Codex medium	OpenAI	10.0	8.4	1/1	6.37s
#16	Gemini 3 Flash Preview low	Google	10.0	8.4	1/1	4.99s
#17	GLM 5 medium	Z.ai	10.0	8.3	1/1	15.9s
#18	Qwen3.7 Plus medium	Qwen	10.0	8.2	1/1	15.0s
#19	Seed-2.0-Lite medium	Bytedance Seed	10.0	8.2	1/1	12.4s
#21	GPT-5.4 medium	OpenAI	10.0	8.0	1/1	13.3s
#22	Step 3.7 Flash medium	Stepfun	10.0	8.0	1/1	4.16s
#23	GLM 5 Turbo medium	Z.ai	10.0	8.0	1/1	9.84s
#24	GPT-5.2 Chat none	OpenAI	10.0	7.9	1/1	4.68s
#25	Qwen3.5 Plus 2026-02-15 medium	Qwen	10.0	7.9	1/1	7.54s
#26	Qwen3.6 Plus medium	Qwen	10.0	7.9	1/1	5.87s
#28	Gemini 2.5 Flash medium	Google	10.0	7.8	1/1	6.20s
#29	Qwen3.5-122B-A10B medium	Qwen	10.0	7.8	1/1	4.60s
#30	Qwen3.5-27B medium	Qwen	10.0	7.8	1/1	7.45s
#31	DeepSeek V4 Flash high	DeepSeek	10.0	7.7	1/1	74.7s

Werkzeugaufrufe-Ranking

Top-Modelle nach Werkzeugaufrufe-Score

Werkzeugaufrufe-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)