Modell-Ranking für Werkzeugaufrufe

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Werkzeugaufrufe am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Antwortzeit (Durchschnitt) ↑.

Angezeigte Modelle

Durchschnittlicher Wert für Werkzeugaufrufe-Score

8.7

Bestes Modell

Gemini 3.5 Flash 3.0

Fehlergründe

Mit Fehlergrund API-Fehler15 Mit Fehlergrund Ungültiger Werkzeugaufruf7 Mit Fehlergrund Anweisungen nicht befolgt6 Mit Fehlergrund Falsche Antwort2 Mit Fehlergrund Keine Antwort2

Rang	Modell	Unternehmen	Werkzeugaufrufe-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#68	Claude Opus 4.8 none	Anthropic	10.0	7.0	1/1	5.35s
#101	Mimo V2 Omni none	Xiaomi	10.0	6.0	1/1	5.40s
#157	Grok 4.1 Fast none	X AI	2.8	4.4	0/1	5.51s
#61	Gemini 3.1 Flash Lite low	Google	10.0	7.2	1/1	5.66s
#26	Qwen3.6 Plus medium	Qwen	10.0	7.9	1/1	5.87s
#93	Qwen3.6 Plus Preview medium	Qwen	10.0	6.3	1/1	5.87s
#113	DeepSeek V4 Pro none	DeepSeek	10.0	5.7	1/1	5.92s
#116	Hunter Alpha none	OpenRouter	10.0	5.7	1/1	6.02s
#28	Gemini 2.5 Flash medium	Google	10.0	7.8	1/1	6.20s
#92	Laguna M.1 medium	Poolside	10.0	6.4	1/1	6.31s
#15	GPT-5.3-Codex medium	OpenAI	10.0	8.4	1/1	6.37s
#53	Gemini 3.1 Flash Lite high	Google	10.0	7.3	1/1	6.44s
#5	Qwen3.7 Max medium	Qwen	10.0	9.1	1/1	6.63s
#151	Trinity Large Preview none	Arcee AI	10.0	4.6	1/1	6.67s
#118	Qwen3.6 27B none	Qwen	9.5	5.6	1/1	6.74s

Werkzeugaufrufe-Ranking

Top-Modelle nach Werkzeugaufrufe-Score

Werkzeugaufrufe-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)