Modell-Ranking für Werkzeugaufrufe

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Werkzeugaufrufe am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Antwortzeit (Durchschnitt) ↑.

Angezeigte Modelle

Durchschnittlicher Wert für Werkzeugaufrufe-Score

8.7

Bestes Modell

Gemini 3.5 Flash 3.0

Fehlergründe

Mit Fehlergrund API-Fehler15 Mit Fehlergrund Ungültiger Werkzeugaufruf7 Mit Fehlergrund Anweisungen nicht befolgt6 Mit Fehlergrund Falsche Antwort2 Mit Fehlergrund Keine Antwort2

Rang	Modell	Unternehmen	Werkzeugaufrufe-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#120	Mimo V2 PRO none	Xiaomi	10.0	5.6	1/1	4.39s
#114	Qwen3.5 Plus 2026-04-20 none	Qwen	10.0	5.7	1/1	4.42s
#124	Kimi K2.6 none	Moonshot AI	10.0	5.5	1/1	4.46s
#44	Gemini 3.1 Flash Lite medium	Google	10.0	7.5	1/1	4.55s
#29	Qwen3.5-122B-A10B medium	Qwen	10.0	7.8	1/1	4.60s
#127	Grok 4.20 none	X AI	10.0	5.4	1/1	4.63s
#66	Qwen3.5-35B-A3B medium	Qwen	10.0	7.1	1/1	4.65s
#24	GPT-5.2 Chat none	OpenAI	10.0	7.9	1/1	4.68s
#8	Claude Opus 4.7 none	Anthropic	10.0	8.9	1/1	4.74s
#106	Grok 4.20 Beta none	X AI	10.0	5.8	1/1	4.79s
#109	GLM 5V Turbo none	Z.ai	10.0	5.8	1/1	4.86s
#2	Gemini 3.5 Flash high	Google	9.8	9.6	1/1	4.96s
#6	GPT-5.5 low	OpenAI	10.0	9.0	1/1	4.96s
#16	Gemini 3 Flash Preview low	Google	10.0	8.4	1/1	4.99s
#74	Qwen3.6 Max Preview none	Qwen	10.0	6.9	1/1	5.27s

Werkzeugaufrufe-Ranking

Top-Modelle nach Werkzeugaufrufe-Score

Werkzeugaufrufe-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)