Modell-Ranking für Werkzeugaufrufe

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Werkzeugaufrufe am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Korrekte Tests ↑.

Angezeigte Modelle

Durchschnittlicher Wert für Werkzeugaufrufe-Score

8.7

Bestes Modell

Grok 4.20 Beta 3.0

Fehlergründe

Mit Fehlergrund API-Fehler15 Mit Fehlergrund Ungültiger Werkzeugaufruf7 Mit Fehlergrund Anweisungen nicht befolgt6 Mit Fehlergrund Falsche Antwort2 Mit Fehlergrund Keine Antwort2

Rang	Modell	Unternehmen	Werkzeugaufrufe-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#121	Owl Alpha none	Openrouter	10.0	5.5	1/1	22.8s
#123	MiMo-V2.5-Pro none	Xiaomi	10.0	5.5	1/1	3.30s
#124	Kimi K2.6 none	Moonshot AI	10.0	5.5	1/1	4.46s
#125	GPT-5.4 none	OpenAI	10.0	5.5	1/1	2.75s
#127	Grok 4.20 none	X AI	10.0	5.4	1/1	4.63s
#128	Qwen3.6 Flash none	Qwen	10.0	5.4	1/1	2.49s
#129	MiniMax M2.5 medium	Minimax	10.0	5.3	1/1	15.4s
#131	Qwen3.5-122B-A10B none	Qwen	10.0	5.3	1/1	2.04s
#132	Mistral Small 4 medium	Mistral	10.0	5.3	1/1	3.50s
#133	DeepSeek V3.2 none	DeepSeek	10.0	5.2	1/1	11.8s
#134	GLM 5 Turbo none	Z.ai	10.0	5.2	1/1	8.21s
#135	Kimi K2.5 none	Moonshot AI	10.0	5.2	1/1	14.0s
#139	DeepSeek V4 Flash none	DeepSeek	10.0	5.0	1/1	77.9s
#140	Qwen3 Coder Next none	Qwen	10.0	4.9	1/1	2.47s
#142	Mistral Small 4 none	Mistral	10.0	4.9	1/1	1.40s

←

1 9 10 11

→

Werkzeugaufrufe-Ranking

Top-Modelle nach Werkzeugaufrufe-Score

Werkzeugaufrufe-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)