Modell-Ranking für Werkzeugaufrufe

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Werkzeugaufrufe am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Metrik ↑.

Angezeigte Modelle

Durchschnittlicher Wert für Werkzeugaufrufe-Score

8.7

Bestes Modell

Grok 4.1 Fast 2.8

Fehlergründe

Mit Fehlergrund API-Fehler15 Mit Fehlergrund Ungültiger Werkzeugaufruf7 Mit Fehlergrund Anweisungen nicht befolgt6 Mit Fehlergrund Falsche Antwort2 Mit Fehlergrund Keine Antwort2

Rang	Modell	Unternehmen	Werkzeugaufrufe-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#126	gpt-oss-120b none	OpenAI	3.0	5.4	0/1	0ms
#136	Elephant Alpha medium	Openrouter	3.0	5.1	0/1	2.83s
#137	Elephant Alpha none	Openrouter	3.0	5.1	0/1	2.79s
#138	Ling-2.6-flash none	Inclusionai	3.0	5.0	0/1	18.8s
#144	GPT-5.4 Mini none	OpenAI	3.0	4.9	0/1	2.32s
#146	Laguna Xs.2 none	Poolside	3.0	4.8	0/1	1.93s
#149	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	3.0	4.6	0/1	0ms
#153	Qwen3.6 35B A3B none	Qwen	3.0	4.6	0/1	0ms
#159	Ling-2.6-1T none	Inclusionai	3.0	4.3	0/1	25.7s
#160	LFM2-24B-A2B none	Liquid	3.0	4.2	0/1	0ms
#162	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3.0	4.1	0/1	0ms
#42	GPT-5.2 medium	OpenAI	4.7	7.5	0/1	10.3s
#45	GPT-5.4 Mini medium	OpenAI	4.7	7.5	0/1	9.62s
#107	Laguna Xs.2 medium	Poolside	4.7	5.8	0/1	3.39s
#130	MiniMax M2.7 medium	Minimax	4.7	5.3	0/1	12.0s

Werkzeugaufrufe-Ranking

Top-Modelle nach Werkzeugaufrufe-Score

Werkzeugaufrufe-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)