Modell-Ranking für Werkzeugaufrufe

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Werkzeugaufrufe am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Antwortzeit (Durchschnitt) ↓.

Angezeigte Modelle

Durchschnittlicher Wert für Werkzeugaufrufe-Score

8.7

Bestes Modell

Ring-2.6-1T 10.0

Fehlergründe

Mit Fehlergrund API-Fehler15 Mit Fehlergrund Ungültiger Werkzeugaufruf7 Mit Fehlergrund Anweisungen nicht befolgt6 Mit Fehlergrund Falsche Antwort2 Mit Fehlergrund Keine Antwort2

Rang	Modell	Unternehmen	Werkzeugaufrufe-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#128	Qwen3.6 Flash none	Qwen	10.0	5.4	1/1	2.49s
#140	Qwen3 Coder Next none	Qwen	10.0	4.9	1/1	2.47s
#143	MiMo-V2.5 none	Xiaomi	10.0	4.9	1/1	2.43s
#144	GPT-5.4 Mini none	OpenAI	3.0	4.9	0/1	2.32s
#117	Qwen3.5-35B-A3B none	Qwen	10.0	5.6	1/1	2.30s
#152	MiMo-V2-Flash none	Xiaomi	10.0	4.6	1/1	2.28s
#163	Granite 4.1 8B none	IBM Granite	10.0	4.0	1/1	2.17s
#131	Qwen3.5-122B-A10B none	Qwen	10.0	5.3	1/1	2.04s
#146	Laguna Xs.2 none	Poolside	3.0	4.8	0/1	1.93s
#97	Gemini 2.5 Flash none	Google	10.0	6.2	1/1	1.91s
#81	Mercury 2 medium	Inception	10.0	6.6	1/1	1.89s
#142	Mistral Small 4 none	Mistral	10.0	4.9	1/1	1.40s
#154	Qwen3.5-9B none	Qwen	10.0	4.6	1/1	1.27s
#155	Mercury 2 none	Inception	10.0	4.5	1/1	1.27s
#20	Gemini 3.5 Flash none	Google	3.0	8.1	0/1	0ms

←

1 9 10 11

→

Werkzeugaufrufe-Ranking

Top-Modelle nach Werkzeugaufrufe-Score

Werkzeugaufrufe-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)