Modell-Ranking für Werkzeugaufrufe

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Werkzeugaufrufe am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Metrik ↑.

Angezeigte Modelle

Durchschnittlicher Wert für Werkzeugaufrufe-Score

8.7

Bestes Modell

Grok 4.1 Fast 2.8

Fehlergründe

Mit Fehlergrund API-Fehler15 Mit Fehlergrund Ungültiger Werkzeugaufruf7 Mit Fehlergrund Anweisungen nicht befolgt6 Mit Fehlergrund Falsche Antwort2 Mit Fehlergrund Keine Antwort2

Rang	Modell	Unternehmen	Werkzeugaufrufe-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#66	Qwen3.5-35B-A3B medium	Qwen	10.0	7.1	1/1	4.65s
#67	MiniMax M3 medium	Minimax	10.0	7.1	1/1	11.9s
#68	Claude Opus 4.8 none	Anthropic	10.0	7.0	1/1	5.35s
#69	Claude Opus 4.6 medium	Anthropic	10.0	7.0	1/1	9.73s
#70	GPT-5.4 Nano medium	OpenAI	10.0	7.0	1/1	7.71s
#71	Step 3.7 Flash high	Stepfun	10.0	7.0	1/1	2.79s
#72	DeepSeek V3.2 medium	DeepSeek	10.0	7.0	1/1	34.8s
#73	Seed-2.0-Mini medium	Bytedance Seed	10.0	6.9	1/1	88.7s
#74	Qwen3.6 Max Preview none	Qwen	10.0	6.9	1/1	5.27s
#75	Ring-2.6-1T medium	Inclusionai	10.0	6.9	1/1	104.4s
#76	Kimi K2.5 medium	Moonshot AI	10.0	6.8	1/1	31.7s
#77	Claude Sonnet 4.6 none	Anthropic	10.0	6.8	1/1	4.11s
#78	Qwen3.6 27B medium	Qwen	10.0	6.8	1/1	16.9s
#79	Hunter Alpha medium	OpenRouter	10.0	6.7	1/1	17.3s
#80	Mimo V2 Omni medium	Xiaomi	10.0	6.7	1/1	14.0s

Werkzeugaufrufe-Ranking

Top-Modelle nach Werkzeugaufrufe-Score

Werkzeugaufrufe-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)