Modell-Ranking für Werkzeugaufrufe

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Werkzeugaufrufe am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Antwortzeit (Durchschnitt) ↑.

Angezeigte Modelle

Durchschnittlicher Wert für Werkzeugaufrufe-Score

8.7

Bestes Modell

Gemini 3.5 Flash 3.0

Fehlergründe

Mit Fehlergrund API-Fehler15 Mit Fehlergrund Ungültiger Werkzeugaufruf7 Mit Fehlergrund Anweisungen nicht befolgt6 Mit Fehlergrund Falsche Antwort2 Mit Fehlergrund Keine Antwort2

Rang	Modell	Unternehmen	Werkzeugaufrufe-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#99	gpt-oss-120b medium	OpenAI	9.8	6.1	1/1	6.91s
#122	GLM 4.7 Flash none	Z.ai	2.8	5.5	0/1	7.05s
#56	MiMo-V2.5 medium	Xiaomi	10.0	7.3	1/1	7.29s
#30	Qwen3.5-27B medium	Qwen	10.0	7.8	1/1	7.45s
#52	Claude Sonnet 4.6 medium	Anthropic	10.0	7.4	1/1	7.48s
#145	Laguna M.1 none	Poolside	10.0	4.8	1/1	7.54s
#25	Qwen3.5 Plus 2026-02-15 medium	Qwen	10.0	7.9	1/1	7.54s
#70	GPT-5.4 Nano medium	OpenAI	10.0	7.0	1/1	7.71s
#41	Nemotron 3 Ultra 550b A55b medium	NVIDIA	10.0	7.5	1/1	7.72s
#12	Gemini 3.1 Flash Lite Preview high	Google	10.0	8.6	1/1	7.73s
#51	Mimo V2 PRO medium	Xiaomi	10.0	7.4	1/1	8.19s
#134	GLM 5 Turbo none	Z.ai	10.0	5.2	1/1	8.21s
#111	Owl Alpha medium	Openrouter	10.0	5.7	1/1	8.26s
#63	GPT-5.3 Chat none	OpenAI	10.0	7.2	1/1	8.36s
#60	Kimi K2.6 medium	Moonshot AI	10.0	7.2	1/1	8.92s

Werkzeugaufrufe-Ranking

Top-Modelle nach Werkzeugaufrufe-Score

Werkzeugaufrufe-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)