AI BENCHY Fehler
Falsche Antwort-Fehler
Sieh, bei welchen KI-Modellen Falsche Antwort besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst.
Kategorien
In der Kategorie Domänenspezifisch307 In der Kategorie Anti-KI-Tricks236 In der Kategorie Rätsellösen142 In der Kategorie Allgemeinwissen127 In der Kategorie Programmierung121 In der Kategorie Befolgung von Anweisungen52 In der Kategorie Kombiniert51 In der Kategorie Datenanalyse und -extraktion35 In der Kategorie Allgemeine Intelligenz31 In der Kategorie Werkzeugaufrufe2
| Rang | Modell | Unternehmen | Falsche Antwort-Anzahl | Punktzahl | Korrekte Tests | Antwortzeit (Durchschnitt) |
|---|---|---|---|---|---|---|
| #66 | Laguna M.1 medium | Poolside | 4 | 7.3 | 13/19 | 14.7s |
| #75 | Seed-2.0-Mini medium | Bytedance Seed | 4 | 7.1 | 11/20 | 80.2s |
| #78 | Claude Sonnet 4.6 none | Anthropic | 4 | 7.0 | 11/20 | 5.27s |
| #82 | Hunter Alpha medium | OpenRouter | 4 | 6.7 | 8/18 | 10.3s |
| #89 | Grok 4.20 Multi Agent Beta medium | X AI | 4 | 6.6 | 8/18 | 9.69s |
| #93 | Grok 4.1 Fast medium | X AI | 4 | 6.5 | 9/19 | 23.8s |
| #5 | Qwen3.7 Max medium | Qwen | 3 | 9.0 | 17/20 | 13.8s |
| #8 | GPT-5.5 low | OpenAI | 3 | 8.9 | 17/20 | 9.43s |
| #9 | Gemini 3.5 Flash none | 3 | 8.9 | 17/20 | 9.05s | |
| #10 | Claude Opus 4.7 none | Anthropic | 3 | 8.9 | 16/19 | 3.02s |
| #12 | Claude Opus 4.8 medium | Anthropic | 3 | 8.7 | 16/20 | 9.34s |
| #15 | Grok 4.20 Beta medium | X AI | 3 | 8.5 | 14/18 | 9.75s |
| #18 | Hy3 preview high | Tencent | 3 | 8.3 | 16/20 | 56.6s |
| #19 | Qwen3.6 Plus Preview medium | Qwen | 3 | 8.2 | 16/19 | 15.2s |
| #20 | GLM 5 medium | Z.ai | 3 | 8.2 | 14/20 | 32.7s |