Modell-Ranking für Werkzeugaufrufe

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Werkzeugaufrufe am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Antwortzeit (Durchschnitt) ↓.

Angezeigte Modelle

Durchschnittlicher Wert für Werkzeugaufrufe-Score

8.7

Bestes Modell

Ring-2.6-1T 10.0

Fehlergründe

Mit Fehlergrund API-Fehler15 Mit Fehlergrund Ungültiger Werkzeugaufruf7 Mit Fehlergrund Anweisungen nicht befolgt6 Mit Fehlergrund Falsche Antwort2 Mit Fehlergrund Keine Antwort2

Rang	Modell	Unternehmen	Werkzeugaufrufe-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#58	Gemini 3.1 Flash Lite Preview none	Google	10.0	7.2	1/1	3.39s
#48	Gemini 3 Flash Preview none	Google	10.0	7.4	1/1	3.35s
#95	Qwen3.5 Plus 2026-02-15 none	Qwen	10.0	6.3	1/1	3.33s
#123	MiMo-V2.5-Pro none	Xiaomi	10.0	5.5	1/1	3.30s
#3	Gemini 3.5 Flash low	Google	10.0	9.4	1/1	3.27s
#57	Step 3.7 Flash low	Stepfun	10.0	7.3	1/1	3.25s
#104	Nemotron 3 Ultra 550b A55b none	NVIDIA	10.0	6.0	1/1	2.99s
#90	Gemini 3.1 Flash Lite none	Google	10.0	6.4	1/1	2.97s
#136	Elephant Alpha medium	Openrouter	3.0	5.1	0/1	2.83s
#71	Step 3.7 Flash high	Stepfun	10.0	7.0	1/1	2.79s
#32	Gemini 3.5 Flash minimal	Google	10.0	7.7	1/1	2.79s
#137	Elephant Alpha none	Openrouter	3.0	5.1	0/1	2.79s
#125	GPT-5.4 none	OpenAI	10.0	5.5	1/1	2.75s
#150	Qwen3 Coder Next medium	Qwen	10.0	4.6	1/1	2.64s
#147	GPT-4o-mini none	OpenAI	10.0	4.8	1/1	2.51s

Werkzeugaufrufe-Ranking

Top-Modelle nach Werkzeugaufrufe-Score

Werkzeugaufrufe-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)