Ranking für Werkzeugaufrufe x Falsche Antwort

Sieh, welche KI-Modelle bei Werkzeugaufrufe am ehesten auf Falsche Antwort stoßen, damit du Schwachstellen schneller erkennst. Sortieren nach: Korrekte Tests ↑.

Angezeigte Modelle

Gesamtfehler

Am stärksten betroffenes Modell

GPT-5.6 Terra 1

Fehlergründe

API-Fehler17 Ungültiger Werkzeugaufruf9 Anweisungen nicht befolgt8 Falsche Antwort3 Keine Antwort2

Kategorien

Domänenspezifisch412 Anti-KI-Tricks293 Programmierung252 Rätsellösen201 Allgemeinwissen168 Kombiniert68 Befolgung von Anweisungen61 Allgemeine Intelligenz59 Datenanalyse und -extraktion41 Werkzeugaufrufe3

3/3

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Kategorie-Score	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#55	GPT-5.6 Terra low	OpenAI	1	4.7	$0.519	0/1	6.69s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.519 Antwortzeit (Durchschnitt) 6.69s
#176	GLM 4.7 Flash none	Z.ai	1	2.8	$0.016	0/1	7.05s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.016 Antwortzeit (Durchschnitt) 7.05s
#203	Grok 4.1 Fast none	X AI	1	2.8	$0.008	0/1	5.51s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.008 Antwortzeit (Durchschnitt) 5.51s

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten

Werkzeugaufrufe: Falsche Antwort

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten