AI BENCHY
Benchmark-Methodik
Diese Seite erklärt unseren Benchmark-Ansatz auf hoher Ebene. Exakte Prompts und interne Bewertungsdetails halten wir zum Schutz der Testintegrität privat.
So funktioniert es (hohe Ebene)
- Private Tests: Exakte Testinhalte, Prompts und vollständige Bewertungsdetails werden nicht veröffentlicht.
- Wiederholte Läufe: Jedes Modell wird mehrfach ausgeführt, damit Ergebnisse Stabilität statt eines Glückstreffers zeigen.
- Reasoning-Modi: Wenn unterstützt, bewerten wir Modelle über mehrere Reasoning-Konfigurationen.
- Ausführung über OpenRouter: Benchmark-Anfragen werden über OpenRouter geroutet.
- Realitätsnahe Zuverlässigkeit: Timeouts, Downtime und API-Fehler zählen als fehlgeschlagene Versuche.
- Schnelle Abdeckung mit entwickelnder Suite: Da unsere Suite kleiner ist, können wir neue Modelle schnell testen und Tests laufend hinzufügen oder entfernen.
- Allgemeines Intelligenzsignal: Der Score ist nicht an eine einzelne Kategorie gebunden. Er beantwortet eine praktische Frage: Wenn man die KI etwas fragt, wie wahrscheinlich ist eine korrekte Antwort?
Wir veröffentlichen die Methodik auf hoher Ebene für Transparenz und halten sensible Benchmark-Details privat.