Fehler-Ranking für Falsche Antwort

Sieh, bei welchen KI-Modellen Falsche Antwort besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst. Sortieren nach: Korrekte Tests ↓.

Angezeigte Modelle

Gesamtfehler

1585

Am stärksten betroffenes Modell

Gemini 3.6 Flash 1

Kategorien

In der Kategorie Domänenspezifisch421 In der Kategorie Anti-KI-Tricks293 In der Kategorie Programmierung259 In der Kategorie Rätsellösen204 In der Kategorie Allgemeinwissen172 In der Kategorie Kombiniert69 In der Kategorie Allgemeine Intelligenz62 In der Kategorie Befolgung von Anweisungen61 In der Kategorie Datenanalyse und -extraktion41 In der Kategorie Werkzeugaufrufe3

215/215

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#50	DeepSeek V4 Pro high	DeepSeek	6	7.7	$0.200	10/22	79.1s
Gesamttests 22 Falsche Tests 12 Gesamtkosten $0.200 Antwortzeit (Durchschnitt) 79.1s
#81	Kimi K2.5 medium	Moonshot AI	5	7.0	$0.600	10/22	99.0s
Gesamttests 22 Falsche Tests 12 Gesamtkosten $0.600 Antwortzeit (Durchschnitt) 99.0s
#82	Mercury 2 medium	Inception	8	7.0	$0.093	10/22	2.72s
Gesamttests 22 Falsche Tests 12 Gesamtkosten $0.093 Antwortzeit (Durchschnitt) 2.72s
#86	DeepSeek V4 Pro none	DeepSeek	8	6.9	$0.096	10/22	11.6s
Gesamttests 22 Falsche Tests 12 Gesamtkosten $0.096 Antwortzeit (Durchschnitt) 11.6s
#96	LongCat 2.0 low	Meituan	8	6.7	$0.391	10/22	100.3s
Gesamttests 22 Falsche Tests 12 Gesamtkosten $0.391 Antwortzeit (Durchschnitt) 100.3s
#105	Qwen3.6 27B medium	Qwen	6	6.5	$0.779	10/22	106.3s
Gesamttests 22 Falsche Tests 12 Gesamtkosten $0.779 Antwortzeit (Durchschnitt) 106.3s
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	12	6.4	$0.073	10/22	9.85s
Gesamttests 22 Falsche Tests 12 Gesamtkosten $0.073 Antwortzeit (Durchschnitt) 9.85s
#121	Gemma 4 31B none	Google	9	6.2	$0.021	10/22	5.34s
Gesamttests 22 Falsche Tests 12 Gesamtkosten $0.021 Antwortzeit (Durchschnitt) 5.34s
#123	GPT-5.6 Luna low	OpenAI	10	6.2	$0.249	10/22	5.04s
Gesamttests 22 Falsche Tests 12 Gesamtkosten $0.249 Antwortzeit (Durchschnitt) 5.04s
#126	Gemini 3.1 Flash Lite minimal	Google	8	6.1	$0.047	10/22	1.86s
Gesamttests 22 Falsche Tests 12 Gesamtkosten $0.047 Antwortzeit (Durchschnitt) 1.86s
#129	Inkling low	Thinkingmachines	8	6.1	$0.187	10/22	5.15s
Gesamttests 22 Falsche Tests 12 Gesamtkosten $0.187 Antwortzeit (Durchschnitt) 5.15s
#187	Grok 4.20 Multi Agent Beta medium	X AI	4	4.8	$5.599	8/18	9.69s
Gesamttests 18 Falsche Tests 10 Gesamtkosten $5.599 Antwortzeit (Durchschnitt) 9.69s
#190	Hunter Alpha medium	OpenRouter	4	4.7	$0.000	8/18	10.3s
Gesamttests 18 Falsche Tests 10 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 10.3s
#147	GLM 5 none	Z.ai	12	5.7	$0.041	9/21	4.03s
Gesamttests 21 Falsche Tests 12 Gesamtkosten $0.041 Antwortzeit (Durchschnitt) 4.03s
#102	LongCat 2.0 high	Meituan	6	6.6	$0.469	9/22	148.7s
Gesamttests 22 Falsche Tests 13 Gesamtkosten $0.469 Antwortzeit (Durchschnitt) 148.7s

Falsche Antwort-Fehler

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)