Ranking für Kombiniert x Keine Antwort

Sieh, welche KI-Modelle bei Kombiniert am ehesten auf Keine Antwort stoßen, damit du Schwachstellen schneller erkennst. Sortieren nach: Fehleranzahl ↑.

Angezeigte Modelle

Gesamtfehler

Am stärksten betroffenes Modell

GPT-5 Mini 1

Fehlergründe

Ungültiger Werkzeugaufruf91 Falsche Antwort68 Keine Antwort29 API-Fehler26 Zeitüberschreitung5 Anweisungen nicht befolgt1 Zusätzliche Formatierung1

Kategorien

Kombiniert29 Programmierung18 Allgemeinwissen13 Datenanalyse und -extraktion8 Domänenspezifisch8 Anti-KI-Tricks4 Rätsellösen3 Befolgung von Anweisungen2 Werkzeugaufrufe2

29/29

Rang	Modell	Unternehmen	Keine Antwort-Anzahl	Kategorie-Score	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#26	GPT-5 Mini medium	OpenAI	1	7.3	$0.237	1/2	99.8s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.237 Antwortzeit (Durchschnitt) 99.8s
#30	GPT-5.2 Chat none	OpenAI	1	7.3	$0.604	1/2	13.9s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.604 Antwortzeit (Durchschnitt) 13.9s
#32	Inkling medium	Thinkingmachines	1	7.3	$0.391	1/2	41.2s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.391 Antwortzeit (Durchschnitt) 41.2s
#35	Seed-2.0-Lite medium	Bytedance Seed	1	6.4	$0.234	1/2	58.5s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.234 Antwortzeit (Durchschnitt) 58.5s
#73	Grok 4.3 medium	X AI	1	6.5	$0.779	1/2	55.1s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.779 Antwortzeit (Durchschnitt) 55.1s
#80	Seed-2.0-Mini medium	Bytedance Seed	1	7.3	$0.101	1/2	282.3s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.101 Antwortzeit (Durchschnitt) 282.3s
#89	Gemini 3 Flash Preview none	Google	1	3.8	$0.085	0/2	12.4s
Gesamttests 2 Falsche Tests 2 Gesamtkosten $0.085 Antwortzeit (Durchschnitt) 12.4s
#106	Gemini 3.1 Flash Lite Preview none	Google	1	3.0	$0.052	0/2	6.23s
Gesamttests 2 Falsche Tests 2 Gesamtkosten $0.052 Antwortzeit (Durchschnitt) 6.23s
#112	Claude Sonnet 5 none	Anthropic	1	6.5	$0.548	1/2	31.4s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.548 Antwortzeit (Durchschnitt) 31.4s
#116	Seed-2.0-Lite none	Bytedance Seed	1	3.0	$0.066	0/2	25.6s
Gesamttests 2 Falsche Tests 2 Gesamtkosten $0.066 Antwortzeit (Durchschnitt) 25.6s
#119	Qwen3.5-35B-A3B medium	Qwen	1	3.8	$0.837	0/2	512.8s
Gesamttests 2 Falsche Tests 2 Gesamtkosten $0.837 Antwortzeit (Durchschnitt) 512.8s
#120	Gemini 3.1 Flash Lite minimal	Google	1	3.0	$0.047	0/2	7.75s
Gesamttests 2 Falsche Tests 2 Gesamtkosten $0.047 Antwortzeit (Durchschnitt) 7.75s
#122	Gemini 3.1 Flash Lite none	Google	1	3.0	$0.046	0/2	9.49s
Gesamttests 2 Falsche Tests 2 Gesamtkosten $0.046 Antwortzeit (Durchschnitt) 9.49s
#128	GPT-5 Nano medium	OpenAI	1	6.4	$0.114	1/2	146.9s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.114 Antwortzeit (Durchschnitt) 146.9s
#132	GPT-5.6 Terra none	OpenAI	1	2.9	$0.349	0/2	7.02s
Gesamttests 2 Falsche Tests 2 Gesamtkosten $0.349 Antwortzeit (Durchschnitt) 7.02s

Modelle filtern

Top-Modelle nach Keine Antwort-Anzahl

Keine Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten

Kombiniert: Keine Antwort

Modelle filtern

Top-Modelle nach Keine Antwort-Anzahl

Keine Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten