Modell-Ranking für Werkzeugaufrufe

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Werkzeugaufrufe am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Antwortzeit (Durchschnitt) ↑.

Angezeigte Modelle

Durchschnittlicher Wert für Werkzeugaufrufe-Score

8.7

Bestes Modell

Gemini 3.5 Flash 3.0

Fehlergründe

Mit Fehlergrund API-Fehler15 Mit Fehlergrund Ungültiger Werkzeugaufruf7 Mit Fehlergrund Anweisungen nicht befolgt6 Mit Fehlergrund Falsche Antwort2 Mit Fehlergrund Keine Antwort2

Rang	Modell	Unternehmen	Werkzeugaufrufe-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#35	Gemini 3 PRO Preview medium	Google	10.0	7.6	1/1	12.0s
#130	MiniMax M2.7 medium	Minimax	4.7	5.3	0/1	12.0s
#19	Seed-2.0-Lite medium	Bytedance Seed	10.0	8.2	1/1	12.4s
#13	Grok 4.20 Beta medium	X AI	3.0	8.5	0/1	12.4s
#59	GLM 5V Turbo medium	Z.ai	7.0	7.2	0/1	12.5s
#1	Gemini 3 Flash Preview medium	Google	10.0	9.8	1/1	12.6s
#47	Grok Build 0.1 medium	X AI	10.0	7.4	1/1	13.1s
#21	GPT-5.4 medium	OpenAI	10.0	8.0	1/1	13.3s
#65	Grok 4.20 medium	X AI	3.0	7.1	0/1	13.7s
#80	Mimo V2 Omni medium	Xiaomi	10.0	6.7	1/1	14.0s
#135	Kimi K2.5 none	Moonshot AI	10.0	5.2	1/1	14.0s
#36	Qwen3.5 Plus 2026-04-20 medium	Qwen	10.0	7.6	1/1	14.7s
#18	Qwen3.7 Plus medium	Qwen	10.0	8.2	1/1	15.0s
#33	Hy3 preview medium	Tencent	10.0	7.7	1/1	15.0s
#129	MiniMax M2.5 medium	Minimax	10.0	5.3	1/1	15.4s

Werkzeugaufrufe-Ranking

Top-Modelle nach Werkzeugaufrufe-Score

Werkzeugaufrufe-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)