Modell-Ranking für Werkzeugaufrufe

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Werkzeugaufrufe am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen.

Angezeigte Modelle

Durchschnittlicher Wert für Werkzeugaufrufe-Score

8.7

Bestes Modell

Fehlergründe

Mit Fehlergrund API-Fehler15 Mit Fehlergrund Ungültiger Werkzeugaufruf7 Mit Fehlergrund Anweisungen nicht befolgt6 Mit Fehlergrund Falsche Antwort2 Mit Fehlergrund Keine Antwort2

Rang	Modell	Unternehmen	Werkzeugaufrufe-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#128	Qwen3.6 Flash none	Qwen	10.0	5.4	1/1	2.49s
#129	MiniMax M2.5 medium	Minimax	10.0	5.3	1/1	15.4s
#131	Qwen3.5-122B-A10B none	Qwen	10.0	5.3	1/1	2.04s
#132	Mistral Small 4 medium	Mistral	10.0	5.3	1/1	3.50s
#133	DeepSeek V3.2 none	DeepSeek	10.0	5.2	1/1	11.8s
#134	GLM 5 Turbo none	Z.ai	10.0	5.2	1/1	8.21s
#135	Kimi K2.5 none	Moonshot AI	10.0	5.2	1/1	14.0s
#139	DeepSeek V4 Flash none	DeepSeek	10.0	5.0	1/1	77.9s
#140	Qwen3 Coder Next none	Qwen	10.0	4.9	1/1	2.47s
#142	Mistral Small 4 none	Mistral	10.0	4.9	1/1	1.40s
#143	MiMo-V2.5 none	Xiaomi	10.0	4.9	1/1	2.43s
#145	Laguna M.1 none	Poolside	10.0	4.8	1/1	7.54s
#147	GPT-4o-mini none	OpenAI	10.0	4.8	1/1	2.51s
#148	GPT-5.4 Nano none	OpenAI	10.0	4.7	1/1	3.40s
#150	Qwen3 Coder Next medium	Qwen	10.0	4.6	1/1	2.64s

Werkzeugaufrufe-Ranking