AI BENCHY
Advertise here

AI BENCHY Fehler

Falsche Antwort-Fehler

Sieh, bei welchen KI-Modellen Falsche Antwort besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst.

Angezeigte Modelle

8

Gesamtfehler

1104

Am stärksten betroffenes Modell

Mercury 2 15
Rang Modell Unternehmen Falsche Antwort-Anzahl Punktzahl Korrekte Tests Antwortzeit (Durchschnitt)
#6 Gemini 3.5 Flash medium Google 2 9.0 17/20 4.29s
#7 Claude Opus 4.7 medium Anthropic 2 8.9 17/20 4.48s
#14 Gemini 3.1 Flash Lite Preview high Google 2 8.6 13/16 68.1s
#25 Gemma 4 31B medium Google 2 8.0 14/20 35.4s
#68 Qwen3.5-35B-A3B medium Qwen 2 7.3 11/20 69.7s
#1 Gemini 3 Flash Preview medium Google 1 9.8 19/20 16.5s
#2 Gemini 3.5 Flash high Google 1 9.6 19/20 8.30s
#37 Step 3.5 Flash none Stepfun 1 7.8 9/12 39.0s

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)