Modell-Ranking für Werkzeugaufrufe

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Werkzeugaufrufe am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Korrekte Tests ↑.

Angezeigte Modelle

Durchschnittlicher Wert für Werkzeugaufrufe-Score

8.7

Bestes Modell

Grok 4.20 Beta 3.0

Fehlergründe

Mit Fehlergrund API-Fehler15 Mit Fehlergrund Ungültiger Werkzeugaufruf7 Mit Fehlergrund Anweisungen nicht befolgt6 Mit Fehlergrund Falsche Antwort2 Mit Fehlergrund Keine Antwort2

Rang	Modell	Unternehmen	Werkzeugaufrufe-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#105	Nemotron 3 Super medium	NVIDIA	10.0	5.8	1/1	39.7s
#106	Grok 4.20 Beta none	X AI	10.0	5.8	1/1	4.79s
#108	Qwen3.5-Flash none	Qwen	10.0	5.8	1/1	3.67s
#109	GLM 5V Turbo none	Z.ai	10.0	5.8	1/1	4.86s
#110	Seed-2.0-Lite none	Bytedance Seed	10.0	5.8	1/1	3.94s
#111	Owl Alpha medium	Openrouter	10.0	5.7	1/1	8.26s
#112	GLM 5.1 none	Z.ai	10.0	5.7	1/1	10.7s
#113	DeepSeek V4 Pro none	DeepSeek	10.0	5.7	1/1	5.92s
#114	Qwen3.5 Plus 2026-04-20 none	Qwen	10.0	5.7	1/1	4.42s
#115	Qwen3.5-27B none	Qwen	10.0	5.7	1/1	3.54s
#116	Hunter Alpha none	OpenRouter	10.0	5.7	1/1	6.02s
#117	Qwen3.5-35B-A3B none	Qwen	10.0	5.6	1/1	2.30s
#118	Qwen3.6 27B none	Qwen	9.5	5.6	1/1	6.74s
#119	Cobuddy medium	Baidu	10.0	5.6	1/1	11.2s
#120	Mimo V2 PRO none	Xiaomi	10.0	5.6	1/1	4.39s

Werkzeugaufrufe-Ranking

Top-Modelle nach Werkzeugaufrufe-Score

Werkzeugaufrufe-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)