AI BENCHY

Benchmark-Methodik

Diese Seite erklärt unseren Benchmark-Ansatz auf hoher Ebene. Exakte Prompts und interne Bewertungsdetails halten wir zum Schutz der Testintegrität privat.

So funktioniert es (hohe Ebene)

Private Tests: Exakte Testinhalte, Prompts und vollständige Bewertungsdetails werden nicht veröffentlicht.
Wiederholte Läufe: Jedes Modell wird mehrfach ausgeführt, damit Ergebnisse Stabilität statt eines Glückstreffers zeigen.
Reasoning-Modi: Wenn unterstützt, bewerten wir Modelle über mehrere Reasoning-Konfigurationen.
Ausführung über OpenRouter: Benchmark-Anfragen werden über OpenRouter geroutet.
Realitätsnahe Zuverlässigkeit: Timeouts, Downtime und API-Fehler zählen als fehlgeschlagene Versuche.
Schnelle Abdeckung mit entwickelnder Suite: Da unsere Suite kleiner ist, können wir neue Modelle schnell testen und Tests laufend hinzufügen oder entfernen.
Allgemeines Intelligenzsignal: Der Score ist nicht an eine einzelne Kategorie gebunden. Er beantwortet eine praktische Frage: Wenn man die KI etwas fragt, wie wahrscheinlich ist eine korrekte Antwort?

Wir veröffentlichen die Methodik auf hoher Ebene für Transparenz und halten sensible Benchmark-Details privat.