AI BENCHY
Your ad here

AI BENCHY Fehler

Falsche Antwort-Fehler

Sieh, bei welchen KI-Modellen Falsche Antwort besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst. Sortieren nach: Fehleranzahl ↑.

Angezeigte Modelle

7

Gesamtfehler

572

Am stärksten betroffenes Modell

Gemini 3.1 Pro Preview 1
Rang Modell Unternehmen Falsche Antwort-Anzahl Punktzahl Korrekte Tests Antwortzeit (Durchschnitt)
#76 Kimi K2.5 none Moonshot AI 12 5.5 6/18 13.4s
#87 Qwen3 Coder Next none Qwen 12 5.1 4/18 10.2s
#94 MiMo-V2-Flash none Xiaomi 12 4.5 3/18 2.79s
#89 GPT-4o-mini none OpenAI 13 4.9 4/18 2.00s
#91 Mercury 2 none Inception 13 4.8 4/18 613ms
#95 Grok 4.1 Fast none X AI 13 4.5 3/18 1.76s
#96 GPT-5.4 Nano none OpenAI 13 4.5 2/18 1.40s

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)