Modell-Ranking für Werkzeugaufrufe

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Werkzeugaufrufe am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Antwortzeit (Durchschnitt) ↑.

Angezeigte Modelle

Durchschnittlicher Wert für Werkzeugaufrufe-Score

8.7

Bestes Modell

Gemini 3.5 Flash 3.0

Fehlergründe

Mit Fehlergrund API-Fehler15 Mit Fehlergrund Ungültiger Werkzeugaufruf7 Mit Fehlergrund Anweisungen nicht befolgt6 Mit Fehlergrund Falsche Antwort2 Mit Fehlergrund Keine Antwort2

Rang	Modell	Unternehmen	Werkzeugaufrufe-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#17	GLM 5 medium	Z.ai	10.0	8.3	1/1	15.9s
#158	GLM 4.7 Flash medium	Z.ai	10.0	4.4	1/1	15.9s
#141	Nemotron 3 Super none	NVIDIA	4.7	4.9	0/1	16.0s
#43	MiMo-V2.5-Pro medium	Xiaomi	10.0	7.5	1/1	16.9s
#78	Qwen3.6 27B medium	Qwen	10.0	6.8	1/1	16.9s
#79	Hunter Alpha medium	OpenRouter	10.0	6.7	1/1	17.3s
#38	Grok 4.3 medium	X AI	10.0	7.6	1/1	17.7s
#89	Hy3 preview low	Tencent	2.8	6.4	0/1	17.8s
#14	Qwen3.6 Max Preview medium	Qwen	10.0	8.5	1/1	18.3s
#54	GPT-5 Mini medium	OpenAI	10.0	7.3	1/1	18.6s
#138	Ling-2.6-flash none	Inclusionai	3.0	5.0	0/1	18.8s
#103	DeepSeek V4 Pro high	DeepSeek	10.0	6.0	1/1	21.3s
#121	Owl Alpha none	Openrouter	10.0	5.5	1/1	22.8s
#4	Gemini 3.1 Pro Preview medium	Google	10.0	9.4	1/1	23.1s
#159	Ling-2.6-1T none	Inclusionai	3.0	4.3	0/1	25.7s

←

1 9 10 11

→

Werkzeugaufrufe-Ranking

Top-Modelle nach Werkzeugaufrufe-Score

Werkzeugaufrufe-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)