AI BENCHY
Your ad here

AI BENCHY Fehler

Anweisungen nicht befolgt-Fehler

Sieh, bei welchen KI-Modellen Anweisungen nicht befolgt besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst. Sortieren nach: Antwortzeit (Durchschnitt) ↑.

Angezeigte Modelle

5

Gesamtfehler

180

Am stärksten betroffenes Modell

Mercury 2 1
Rang Modell Unternehmen Anweisungen nicht befolgt-Anzahl Punktzahl Korrekte Tests Antwortzeit (Durchschnitt)
#32 Qwen3.5-Flash medium Qwen 1 7.8 11/18 66.7s
#11 Gemini 3.1 Flash Lite Preview high Google 1 8.4 12/16 68.8s
#39 Seed-2.0-Mini medium Bytedance Seed 1 7.5 11/18 69.7s
#46 Kimi K2.5 medium Moonshot AI 2 7.0 9/18 72.4s
#97 Qwen3.5-9B medium Qwen 2 4.4 3/18 73.6s

Top-Modelle nach Anweisungen nicht befolgt-Anzahl

Anweisungen nicht befolgt-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)