Fehler-Ranking für Falsche Antwort

Sieh, bei welchen KI-Modellen Falsche Antwort besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst. Sortieren nach: Antwortzeit (Durchschnitt) ↓.

Angezeigte Modelle

Gesamtfehler

1642

Am stärksten betroffenes Modell

Step 3.5 Flash 4

Kategorien

In der Kategorie Domänenspezifisch433 In der Kategorie Anti-KI-Tricks306 In der Kategorie Programmierung266 In der Kategorie Rätsellösen214 In der Kategorie Allgemeinwissen176 In der Kategorie Kombiniert71 In der Kategorie Allgemeine Intelligenz66 In der Kategorie Befolgung von Anweisungen65 In der Kategorie Datenanalyse und -extraktion41 In der Kategorie Werkzeugaufrufe4

219/219

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#32	Inkling high	Thinkingmachines	4	8.0	$1.006	15/22	64.2s
Gesamttests 22 Falsche Tests 7 Gesamtkosten $1.006 Antwortzeit (Durchschnitt) 64.2s
#35	GLM 5.2 high	Z.ai	3	8.0	$0.796	14/22	62.7s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $0.796 Antwortzeit (Durchschnitt) 62.7s
#149	Gemini 3.1 Flash Lite high	Google	4	5.6	$2.044	10/18	62.0s
Gesamttests 18 Falsche Tests 8 Gesamtkosten $2.044 Antwortzeit (Durchschnitt) 62.0s
#25	Grok 4.5 medium	X AI	6	8.3	$1.928	16/22	61.7s
Gesamttests 22 Falsche Tests 6 Gesamtkosten $1.928 Antwortzeit (Durchschnitt) 61.7s
#164	Laguna S 2.1 medium	Poolside	13	5.4	$0.059	4/22	58.4s
Gesamttests 22 Falsche Tests 18 Gesamtkosten $0.059 Antwortzeit (Durchschnitt) 58.4s
#94	Qwen3.6 35B A3B medium	Qwen	4	6.7	$0.746	13/22	58.1s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $0.746 Antwortzeit (Durchschnitt) 58.1s
#141	Hy3 preview high	Tencent	3	5.9	$0.048	11/21	56.6s
Gesamttests 21 Falsche Tests 10 Gesamtkosten $0.048 Antwortzeit (Durchschnitt) 56.6s
#188	Ring-2.6-1T none	Inclusionai	5	4.8	$0.026	9/22	55.1s
Gesamttests 22 Falsche Tests 13 Gesamtkosten $0.026 Antwortzeit (Durchschnitt) 55.1s
#134	GPT-5 Nano medium	OpenAI	9	6.1	$0.114	9/22	54.9s
Gesamttests 22 Falsche Tests 13 Gesamtkosten $0.114 Antwortzeit (Durchschnitt) 54.9s
#52	Grok Build 0.1 medium	X AI	5	7.6	$1.097	14/22	52.1s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $1.097 Antwortzeit (Durchschnitt) 52.1s
#146	Nemotron 3 Super medium	NVIDIA	5	5.7	$0.055	8/22	52.0s
Gesamttests 22 Falsche Tests 14 Gesamtkosten $0.055 Antwortzeit (Durchschnitt) 52.0s
#40	Qwen3.7 Plus medium	Qwen	5	7.9	$0.267	15/22	51.5s
Gesamttests 22 Falsche Tests 7 Gesamtkosten $0.267 Antwortzeit (Durchschnitt) 51.5s
#49	DeepSeek V4 Flash high	DeepSeek	6	7.7	$0.042	13/22	49.7s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $0.042 Antwortzeit (Durchschnitt) 49.7s
#39	Seed-2.0-Lite medium	Bytedance Seed	5	7.9	$0.234	14/22	48.5s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $0.234 Antwortzeit (Durchschnitt) 48.5s
#108	Laguna XS 2.1 medium	Poolside	11	6.5	$0.068	9/22	47.9s
Gesamttests 22 Falsche Tests 13 Gesamtkosten $0.068 Antwortzeit (Durchschnitt) 47.9s

Falsche Antwort-Fehler

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)