AI BENCHY
Advertise here

AI BENCHY Fehler

Falsche Antwort-Fehler

Sieh, bei welchen KI-Modellen Falsche Antwort besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst. Sortieren nach: Fehleranzahl ↑.

Angezeigte Modelle

15

Gesamtfehler

1204

Am stärksten betroffenes Modell

Gemini 3 Flash Preview 1
Rang Modell Unternehmen Falsche Antwort-Anzahl Punktzahl Korrekte Tests Antwortzeit (Durchschnitt)
#117 Qwen3.5-35B-A3B none Qwen 12 5.6 7/21 3.37s
#128 Qwen3.6 Flash none Qwen 12 5.4 7/21 1.60s
#132 Mistral Small 4 medium Mistral 12 5.3 5/21 9.40s
#139 DeepSeek V4 Flash none DeepSeek 12 5.0 5/21 26.8s
#151 Trinity Large Preview none Arcee AI 12 4.6 4/21 2.98s
#159 Ling-2.6-1T none Inclusionai 12 4.3 3/21 7.72s
#108 Qwen3.5-Flash none Qwen 13 5.8 8/21 3.58s
#110 Seed-2.0-Lite none Bytedance Seed 13 5.8 8/21 2.49s
#112 GLM 5.1 none Z.ai 13 5.7 7/21 4.10s
#122 GLM 4.7 Flash none Z.ai 13 5.5 6/21 2.86s
#125 GPT-5.4 none OpenAI 13 5.5 7/21 1.42s
#131 Qwen3.5-122B-A10B none Qwen 13 5.3 6/21 3.41s
#134 GLM 5 Turbo none Z.ai 13 5.2 6/21 2.82s
#144 GPT-5.4 Mini none OpenAI 13 4.9 5/21 1.13s
#150 Qwen3 Coder Next medium Qwen 13 4.6 4/21 8.58s

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)