Modell-Ranking für Werkzeugaufrufe

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Werkzeugaufrufe am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Korrekte Tests ↓.

Angezeigte Modelle

Durchschnittlicher Wert für Werkzeugaufrufe-Score

8.7

Bestes Modell

Gemini 3 Flash Preview 10.0

Fehlergründe

Mit Fehlergrund API-Fehler15 Mit Fehlergrund Ungültiger Werkzeugaufruf7 Mit Fehlergrund Anweisungen nicht befolgt6 Mit Fehlergrund Falsche Antwort2 Mit Fehlergrund Keine Antwort2

Rang	Modell	Unternehmen	Werkzeugaufrufe-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#147	GPT-4o-mini none	OpenAI	10.0	4.8	1/1	2.51s
#148	GPT-5.4 Nano none	OpenAI	10.0	4.7	1/1	3.40s
#150	Qwen3 Coder Next medium	Qwen	10.0	4.6	1/1	2.64s
#151	Trinity Large Preview none	Arcee AI	10.0	4.6	1/1	6.67s
#152	MiMo-V2-Flash none	Xiaomi	10.0	4.6	1/1	2.28s
#154	Qwen3.5-9B none	Qwen	10.0	4.6	1/1	1.27s
#155	Mercury 2 none	Inception	10.0	4.5	1/1	1.27s
#156	Hy3 preview none	Tencent	10.0	4.4	1/1	33.8s
#158	GLM 4.7 Flash medium	Z.ai	10.0	4.4	1/1	15.9s
#161	Qwen3.5-9B medium	Qwen	10.0	4.2	1/1	4.31s
#163	Granite 4.1 8B none	IBM Granite	10.0	4.0	1/1	2.17s
#13	Grok 4.20 Beta medium	X AI	3.0	8.5	0/1	12.4s
#20	Gemini 3.5 Flash none	Google	3.0	8.1	0/1	0ms
#27	Gemma 4 31B medium	Google	3.0	7.8	0/1	0ms
#42	GPT-5.2 medium	OpenAI	4.7	7.5	0/1	10.3s

Werkzeugaufrufe-Ranking

Top-Modelle nach Werkzeugaufrufe-Score

Werkzeugaufrufe-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)