AI BENCHY
Vergleichen Diagramme Methodik
❤️ Made by XCS
Your ad here

AI BENCHY Fehler

Zusätzliche Formatierung-Fehler

Sieh, bei welchen KI-Modellen Zusätzliche Formatierung besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst. Sortieren nach: Antwortzeit (Durchschnitt) ↑.

Angezeigte Modelle

6

Gesamtfehler

13

Am stärksten betroffenes Modell

MiMo-V2-Flash 1
Rang Modell Unternehmen Zusätzliche Formatierung-Anzahl Ø-Score Korrekte Tests Antwortzeit (Durchschnitt)
#54 MiMo-V2-Flash none Xiaomi 1 2.9 3/16 2.97s
#25 Claude Sonnet 4.6 none Anthropic 3 6.8 10/16 5.57s
#11 Claude Sonnet 4.6 medium Anthropic 2 7.7 12/16 11.2s
#48 Qwen3 Coder Next none Qwen 1 4.0 4/16 11.7s
#33 DeepSeek V3.2 none DeepSeek 2 5.5 7/16 12.9s
#26 Claude Opus 4.6 medium Anthropic 4 6.6 10/16 22.9s

Top-Modelle nach Zusätzliche Formatierung-Anzahl

Zusätzliche Formatierung-Anzahl vs. Ø-Score

Top-Modelle nach Antwortzeit (Durchschnitt)