AI BENCHY
Vergleichen Diagramme Methodik
❤️ Made by XCS
Your ad here

AI BENCHY

Benchmark-Methodik

Diese Seite erklärt unseren Benchmark-Ansatz auf hoher Ebene. Exakte Prompts und interne Bewertungsdetails halten wir zum Schutz der Testintegrität privat.

So funktioniert es (hohe Ebene)

  • Private Tests: Exakte Testinhalte, Prompts und vollständige Bewertungsdetails werden nicht veröffentlicht.
  • Wiederholte Läufe: Jedes Modell wird mehrfach ausgeführt, damit Ergebnisse Stabilität statt eines Glückstreffers zeigen.
  • Reasoning-Modi: Wenn unterstützt, bewerten wir Modelle über mehrere Reasoning-Konfigurationen.
  • Ausführung über OpenRouter: Benchmark-Anfragen werden über OpenRouter geroutet.
  • Realitätsnahe Zuverlässigkeit: Timeouts, Downtime und API-Fehler zählen als fehlgeschlagene Versuche.
  • Schnelle Abdeckung mit entwickelnder Suite: Da unsere Suite kleiner ist, können wir neue Modelle schnell testen und Tests laufend hinzufügen oder entfernen.
  • Allgemeines Intelligenzsignal: Der Score ist nicht an eine einzelne Kategorie gebunden. Er beantwortet eine praktische Frage: Wenn man die KI etwas fragt, wie wahrscheinlich ist eine korrekte Antwort?

Wir veröffentlichen die Methodik auf hoher Ebene für Transparenz und halten sensible Benchmark-Details privat.