Modell-Ranking für Werkzeugaufrufe

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Werkzeugaufrufe am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Antwortzeit (Durchschnitt) ↓.

Angezeigte Modelle

Durchschnittlicher Wert für Werkzeugaufrufe-Score

8.7

Bestes Modell

Ring-2.6-1T 10.0

Fehlergründe

Mit Fehlergrund API-Fehler15 Mit Fehlergrund Ungültiger Werkzeugaufruf7 Mit Fehlergrund Anweisungen nicht befolgt6 Mit Fehlergrund Falsche Antwort2 Mit Fehlergrund Keine Antwort2

Rang	Modell	Unternehmen	Werkzeugaufrufe-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#5	Qwen3.7 Max medium	Qwen	10.0	9.1	1/1	6.63s
#53	Gemini 3.1 Flash Lite high	Google	10.0	7.3	1/1	6.44s
#15	GPT-5.3-Codex medium	OpenAI	10.0	8.4	1/1	6.37s
#92	Laguna M.1 medium	Poolside	10.0	6.4	1/1	6.31s
#28	Gemini 2.5 Flash medium	Google	10.0	7.8	1/1	6.20s
#116	Hunter Alpha none	OpenRouter	10.0	5.7	1/1	6.02s
#113	DeepSeek V4 Pro none	DeepSeek	10.0	5.7	1/1	5.92s
#26	Qwen3.6 Plus medium	Qwen	10.0	7.9	1/1	5.87s
#93	Qwen3.6 Plus Preview medium	Qwen	10.0	6.3	1/1	5.87s
#61	Gemini 3.1 Flash Lite low	Google	10.0	7.2	1/1	5.66s
#157	Grok 4.1 Fast none	X AI	2.8	4.4	0/1	5.51s
#101	Mimo V2 Omni none	Xiaomi	10.0	6.0	1/1	5.40s
#68	Claude Opus 4.8 none	Anthropic	10.0	7.0	1/1	5.35s
#74	Qwen3.6 Max Preview none	Qwen	10.0	6.9	1/1	5.27s
#16	Gemini 3 Flash Preview low	Google	10.0	8.4	1/1	4.99s

Werkzeugaufrufe-Ranking

Top-Modelle nach Werkzeugaufrufe-Score

Werkzeugaufrufe-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)