AI BENCHY Kategoriefehler
Rätsellösen: Falsche Antwort
Rätsellösen
Falsche Antwort
Sieh, welche KI-Modelle bei Rätsellösen am ehesten auf Falsche Antwort stoßen, damit du Schwachstellen schneller erkennst. Sortieren nach: Korrekte Tests ↓.
Angezeigte Modelle
15
Gesamtfehler
85
Am stärksten betroffenes Modell
Gemini 3.1 Flash Lite Preview 1Fehlergründe
| Rang | Modell | Unternehmen | Falsche Antwort-Anzahl | Kategorie-Score | Korrekte Tests | Antwortzeit (Durchschnitt) |
|---|---|---|---|---|---|---|
| #11 | Gemini 3.1 Flash Lite Preview high | 1 | 7.7 | 2/3 | 46.3s | |
| #15 | Gemini 2.5 Flash medium | 1 | 7.7 | 2/3 | 3.94s | |
| #17 | Gemini 3.1 Flash Lite Preview medium | 1 | 7.7 | 2/3 | 3.58s | |
| #21 | Gemini 3 Flash Preview none | 1 | 7.7 | 2/3 | 1.06s | |
| #27 | DeepSeek V3.2 medium | DeepSeek | 1 | 8.2 | 2/3 | 36.9s |
| #28 | GPT-5.2 Chat none | OpenAI | 1 | 7.7 | 2/3 | 4.42s |
| #33 | GLM 5.1 medium | Z.ai | 1 | 8.2 | 2/3 | 23.8s |
| #37 | Claude Opus 4.6 medium | Anthropic | 1 | 7.7 | 2/3 | 4.60s |
| #39 | Seed-2.0-Mini medium | Bytedance Seed | 1 | 8.2 | 2/3 | 25.9s |
| #41 | MiMo-V2-Flash medium | Xiaomi | 1 | 7.7 | 2/3 | 3.77s |
| #49 | Qwen3.5 Plus 2026-02-15 none | Qwen | 1 | 7.7 | 2/3 | 2.82s |
| #53 | GLM 5 none | Z.ai | 1 | 7.7 | 2/3 | 2.05s |
| #64 | DeepSeek V3.2 none | DeepSeek | 1 | 8.5 | 2/3 | 7.37s |
| #30 | Step 3.5 Flash medium | Stepfun | 1 | 5.3 | 1/3 | 7.72s |
| #35 | MiMo-V2-Omni medium | Xiaomi | 1 | 6.5 | 1/3 | 3.88s |