Modell-Ranking für Werkzeugaufrufe

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Werkzeugaufrufe am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Korrekte Tests ↑.

Angezeigte Modelle

Durchschnittlicher Wert für Werkzeugaufrufe-Score

8.7

Bestes Modell

Grok 4.20 Beta 3.0

Fehlergründe

Mit Fehlergrund API-Fehler15 Mit Fehlergrund Ungültiger Werkzeugaufruf7 Mit Fehlergrund Anweisungen nicht befolgt6 Mit Fehlergrund Falsche Antwort2 Mit Fehlergrund Keine Antwort2

Rang	Modell	Unternehmen	Werkzeugaufrufe-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#160	LFM2-24B-A2B none	Liquid	3.0	4.2	0/1	0ms
#162	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3.0	4.1	0/1	0ms
#1	Gemini 3 Flash Preview medium	Google	10.0	9.8	1/1	12.6s
#2	Gemini 3.5 Flash high	Google	9.8	9.6	1/1	4.96s
#3	Gemini 3.5 Flash low	Google	10.0	9.4	1/1	3.27s
#4	Gemini 3.1 Pro Preview medium	Google	10.0	9.4	1/1	23.1s
#5	Qwen3.7 Max medium	Qwen	10.0	9.1	1/1	6.63s
#6	GPT-5.5 low	OpenAI	10.0	9.0	1/1	4.96s
#7	Gemini 3.5 Flash medium	Google	10.0	9.0	1/1	3.81s
#8	Claude Opus 4.7 none	Anthropic	10.0	8.9	1/1	4.74s
#9	GPT-5.5 medium	OpenAI	10.0	8.8	1/1	10.6s
#10	Claude Opus 4.8 medium	Anthropic	10.0	8.7	1/1	8.96s
#11	Claude Opus 4.7 medium	Anthropic	10.0	8.7	1/1	4.17s
#12	Gemini 3.1 Flash Lite Preview high	Google	10.0	8.6	1/1	7.73s
#14	Qwen3.6 Max Preview medium	Qwen	10.0	8.5	1/1	18.3s

Werkzeugaufrufe-Ranking

Top-Modelle nach Werkzeugaufrufe-Score

Werkzeugaufrufe-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)