Modell-Ranking für Werkzeugaufrufe

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Werkzeugaufrufe am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Antwortzeit (Durchschnitt) ↓.

Angezeigte Modelle

Durchschnittlicher Wert für Werkzeugaufrufe-Score

8.7

Bestes Modell

Ring-2.6-1T 10.0

Fehlergründe

Mit Fehlergrund API-Fehler15 Mit Fehlergrund Ungültiger Werkzeugaufruf7 Mit Fehlergrund Anweisungen nicht befolgt6 Mit Fehlergrund Falsche Antwort2 Mit Fehlergrund Keine Antwort2

Rang	Modell	Unternehmen	Werkzeugaufrufe-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#75	Ring-2.6-1T medium	Inclusionai	10.0	6.9	1/1	104.4s
#73	Seed-2.0-Mini medium	Bytedance Seed	10.0	6.9	1/1	88.7s
#82	Hy3 preview high	Tencent	10.0	6.6	1/1	78.8s
#139	DeepSeek V4 Flash none	DeepSeek	10.0	5.0	1/1	77.9s
#31	DeepSeek V4 Flash high	DeepSeek	10.0	7.7	1/1	74.7s
#102	Gemma 4 26B A4B none	Google	10.0	6.0	1/1	57.1s
#105	Nemotron 3 Super medium	NVIDIA	10.0	5.8	1/1	39.7s
#72	DeepSeek V3.2 medium	DeepSeek	10.0	7.0	1/1	34.8s
#156	Hy3 preview none	Tencent	10.0	4.4	1/1	33.8s
#94	GPT-5 Nano medium	OpenAI	10.0	6.3	1/1	33.3s
#76	Kimi K2.5 medium	Moonshot AI	10.0	6.8	1/1	31.7s
#64	MiMo-V2-Flash medium	Xiaomi	10.0	7.2	1/1	27.8s
#86	Grok 4.1 Fast medium	X AI	2.8	6.5	0/1	27.7s
#159	Ling-2.6-1T none	Inclusionai	3.0	4.3	0/1	25.7s
#4	Gemini 3.1 Pro Preview medium	Google	10.0	9.4	1/1	23.1s

Werkzeugaufrufe-Ranking

Top-Modelle nach Werkzeugaufrufe-Score

Werkzeugaufrufe-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)