Modell-Ranking für Werkzeugaufrufe

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Werkzeugaufrufe am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Metrik ↑.

Angezeigte Modelle

Durchschnittlicher Wert für Werkzeugaufrufe-Score

8.7

Bestes Modell

Grok 4.1 Fast 2.8

Fehlergründe

Mit Fehlergrund API-Fehler15 Mit Fehlergrund Ungültiger Werkzeugaufruf7 Mit Fehlergrund Anweisungen nicht befolgt6 Mit Fehlergrund Falsche Antwort2 Mit Fehlergrund Keine Antwort2

Rang	Modell	Unternehmen	Werkzeugaufrufe-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#12	Gemini 3.1 Flash Lite Preview high	Google	10.0	8.6	1/1	7.73s
#14	Qwen3.6 Max Preview medium	Qwen	10.0	8.5	1/1	18.3s
#15	GPT-5.3-Codex medium	OpenAI	10.0	8.4	1/1	6.37s
#16	Gemini 3 Flash Preview low	Google	10.0	8.4	1/1	4.99s
#17	GLM 5 medium	Z.ai	10.0	8.3	1/1	15.9s
#18	Qwen3.7 Plus medium	Qwen	10.0	8.2	1/1	15.0s
#19	Seed-2.0-Lite medium	Bytedance Seed	10.0	8.2	1/1	12.4s
#21	GPT-5.4 medium	OpenAI	10.0	8.0	1/1	13.3s
#22	Step 3.7 Flash medium	Stepfun	10.0	8.0	1/1	4.16s
#23	GLM 5 Turbo medium	Z.ai	10.0	8.0	1/1	9.84s
#24	GPT-5.2 Chat none	OpenAI	10.0	7.9	1/1	4.68s
#25	Qwen3.5 Plus 2026-02-15 medium	Qwen	10.0	7.9	1/1	7.54s
#26	Qwen3.6 Plus medium	Qwen	10.0	7.9	1/1	5.87s
#28	Gemini 2.5 Flash medium	Google	10.0	7.8	1/1	6.20s
#29	Qwen3.5-122B-A10B medium	Qwen	10.0	7.8	1/1	4.60s

Werkzeugaufrufe-Ranking

Top-Modelle nach Werkzeugaufrufe-Score

Werkzeugaufrufe-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)