Modell-Ranking für Werkzeugaufrufe

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Werkzeugaufrufe am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Antwortzeit (Durchschnitt) ↑.

Angezeigte Modelle

Durchschnittlicher Wert für Werkzeugaufrufe-Score

8.7

Bestes Modell

Gemini 3.5 Flash 3.0

Fehlergründe

Mit Fehlergrund API-Fehler15 Mit Fehlergrund Ungültiger Werkzeugaufruf7 Mit Fehlergrund Anweisungen nicht befolgt6 Mit Fehlergrund Falsche Antwort2 Mit Fehlergrund Keine Antwort2

Rang	Modell	Unternehmen	Werkzeugaufrufe-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#132	Mistral Small 4 medium	Mistral	10.0	5.3	1/1	3.50s
#87	Gemini 3.1 Flash Lite minimal	Google	10.0	6.4	1/1	3.51s
#88	Qwen3.7 Plus none	Qwen	10.0	6.4	1/1	3.54s
#115	Qwen3.5-27B none	Qwen	10.0	5.7	1/1	3.54s
#108	Qwen3.5-Flash none	Qwen	10.0	5.8	1/1	3.67s
#40	Gemini 3.1 Flash Lite Preview medium	Google	10.0	7.5	1/1	3.80s
#7	Gemini 3.5 Flash medium	Google	10.0	9.0	1/1	3.81s
#91	GPT-5.5 none	OpenAI	10.0	6.4	1/1	3.90s
#34	Qwen3.7 Max none	Qwen	10.0	7.7	1/1	3.92s
#110	Seed-2.0-Lite none	Bytedance Seed	10.0	5.8	1/1	3.94s
#39	Qwen3.6 Flash medium	Qwen	10.0	7.5	1/1	4.00s
#77	Claude Sonnet 4.6 none	Anthropic	10.0	6.8	1/1	4.11s
#22	Step 3.7 Flash medium	Stepfun	10.0	8.0	1/1	4.16s
#11	Claude Opus 4.7 medium	Anthropic	10.0	8.7	1/1	4.17s
#161	Qwen3.5-9B medium	Qwen	10.0	4.2	1/1	4.31s

Werkzeugaufrufe-Ranking

Top-Modelle nach Werkzeugaufrufe-Score

Werkzeugaufrufe-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)