Modell-Ranking für Werkzeugaufrufe

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Werkzeugaufrufe am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen.

Angezeigte Modelle

Durchschnittlicher Wert für Werkzeugaufrufe-Score

8.7

Bestes Modell

Fehlergründe

Mit Fehlergrund API-Fehler15 Mit Fehlergrund Ungültiger Werkzeugaufruf7 Mit Fehlergrund Anweisungen nicht befolgt6 Mit Fehlergrund Falsche Antwort2 Mit Fehlergrund Keine Antwort2

Rang	Modell	Unternehmen	Werkzeugaufrufe-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#110	Seed-2.0-Lite none	Bytedance Seed	10.0	5.8	1/1	3.94s
#111	Owl Alpha medium	Openrouter	10.0	5.7	1/1	8.26s
#112	GLM 5.1 none	Z.ai	10.0	5.7	1/1	10.7s
#113	DeepSeek V4 Pro none	DeepSeek	10.0	5.7	1/1	5.92s
#114	Qwen3.5 Plus 2026-04-20 none	Qwen	10.0	5.7	1/1	4.42s
#115	Qwen3.5-27B none	Qwen	10.0	5.7	1/1	3.54s
#116	Hunter Alpha none	OpenRouter	10.0	5.7	1/1	6.02s
#117	Qwen3.5-35B-A3B none	Qwen	10.0	5.6	1/1	2.30s
#119	Cobuddy medium	Baidu	10.0	5.6	1/1	11.2s
#120	Mimo V2 PRO none	Xiaomi	10.0	5.6	1/1	4.39s
#121	Owl Alpha none	Openrouter	10.0	5.5	1/1	22.8s
#123	MiMo-V2.5-Pro none	Xiaomi	10.0	5.5	1/1	3.30s
#124	Kimi K2.6 none	Moonshot AI	10.0	5.5	1/1	4.46s
#125	GPT-5.4 none	OpenAI	10.0	5.5	1/1	2.75s
#127	Grok 4.20 none	X AI	10.0	5.4	1/1	4.63s

Werkzeugaufrufe-Ranking