Modell-Ranking für Werkzeugaufrufe

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Werkzeugaufrufe am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Metrik ↑.

Angezeigte Modelle

Durchschnittlicher Wert für Werkzeugaufrufe-Score

8.7

Bestes Modell

Grok 4.1 Fast 2.8

Fehlergründe

Mit Fehlergrund API-Fehler15 Mit Fehlergrund Ungültiger Werkzeugaufruf7 Mit Fehlergrund Anweisungen nicht befolgt6 Mit Fehlergrund Falsche Antwort2 Mit Fehlergrund Keine Antwort2

Rang	Modell	Unternehmen	Werkzeugaufrufe-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#30	Qwen3.5-27B medium	Qwen	10.0	7.8	1/1	7.45s
#31	DeepSeek V4 Flash high	DeepSeek	10.0	7.7	1/1	74.7s
#32	Gemini 3.5 Flash minimal	Google	10.0	7.7	1/1	2.79s
#33	Hy3 preview medium	Tencent	10.0	7.7	1/1	15.0s
#34	Qwen3.7 Max none	Qwen	10.0	7.7	1/1	3.92s
#35	Gemini 3 PRO Preview medium	Google	10.0	7.6	1/1	12.0s
#36	Qwen3.5 Plus 2026-04-20 medium	Qwen	10.0	7.6	1/1	14.7s
#37	Gemma 4 26B A4B medium	Google	10.0	7.6	1/1	9.01s
#38	Grok 4.3 medium	X AI	10.0	7.6	1/1	17.7s
#39	Qwen3.6 Flash medium	Qwen	10.0	7.5	1/1	4.00s
#40	Gemini 3.1 Flash Lite Preview medium	Google	10.0	7.5	1/1	3.80s
#41	Nemotron 3 Ultra 550b A55b medium	NVIDIA	10.0	7.5	1/1	7.72s
#43	MiMo-V2.5-Pro medium	Xiaomi	10.0	7.5	1/1	16.9s
#44	Gemini 3.1 Flash Lite medium	Google	10.0	7.5	1/1	4.55s
#47	Grok Build 0.1 medium	X AI	10.0	7.4	1/1	13.1s

Werkzeugaufrufe-Ranking

Top-Modelle nach Werkzeugaufrufe-Score

Werkzeugaufrufe-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)