AI BENCHY
Benchmark-Methodik
Diese Seite erklärt unseren Benchmark-Ansatz auf hoher Ebene. Exakte Prompts und interne Bewertungsdetails halten wir zum Schutz der Testintegrität privat.
Die Tests
Die Fragen sind größtenteils eher zufällig gewählt, über verschiedene Aufgaben und Bereiche hinweg. Statistisch gesehen sollte ein besseres Modell im Durchschnitt bei einer zufälligen, nicht gezielt ausgewählten Aufgabe besser abschneiden als ein schwächeres Modell. Ich habe einen Hintergrund im Competitive Programming, daher kommt mir das Nachdenken über Tests und Randfälle ganz natürlich.
Das ist kein standardisierter "IQ"-Wert. Der Score hat keine Einheit; er ist nur ein willkürlicher Wert, der zeigt, wie gut ein Modell über die gesamte Testsuite hinweg abschneidet (korrekte Antworten + Konsistenz). Ich cherry-picke weder Modelle noch passe ich Tests an bestimmte Modelle an. Wenn mir ein neuer Test einfällt, füge ich ihn hinzu, teste alle Modelle erneut und berechne die Scores neu.
Die Fragen basieren meist auf einfachen Ideen wie: "Ich frage mich, ob die Modelle gut abschneiden, wenn man sie bittet, X, Y oder Z zu tun". Zum Beispiel: "Antworte mit den zwei gleichen natürlichen Zahlen a und b, die zusammen die Summe 2 ergeben. Antworte exakt in diesem Format: a,b". Manche AIs geben vielleicht die falsche Antwort, zum Beispiel "2,2". Andere erfüllen die Bedingung gleicher Zahlen nicht, zum Beispiel "0,2". Wieder andere ignorieren das Ausgabeformat, zum Beispiel "The answer is a = 1 and b = 1". Und andere antworten einfach korrekt mit "1,1".
Manche Tests sind komplexer als dieses Beispiel, aber du verstehst die Grundidee. Das bevorzugt kein bestimmtes Modell, und diese Fragen sind für Menschen im Allgemeinen sehr leicht. Es ist nicht meine Schuld, wenn Claude etwas wie "**1**, **1**" mit Markdown-Hervorhebung ausgibt, während die meisten anderen Modelle das verlangte Format korrekt einhalten.
So funktioniert es (hohe Ebene)
- Private Tests: Exakte Testinhalte, Prompts und vollständige Bewertungsdetails werden nicht veröffentlicht.
- Wiederholte Läufe: Jedes Modell wird mehrfach ausgeführt, damit Ergebnisse Stabilität statt eines Glückstreffers zeigen.
- Reasoning-Modi: Wenn unterstützt, bewerten wir Modelle über mehrere Reasoning-Konfigurationen.
- Ausführung über OpenRouter: Benchmark-Anfragen werden über OpenRouter geroutet.
- Realitätsnahe Zuverlässigkeit: Timeouts, Downtime und API-Fehler zählen als fehlgeschlagene Versuche.
- Schnelle Abdeckung mit entwickelnder Suite: Da unsere Suite kleiner ist, können wir neue Modelle schnell testen und Tests laufend hinzufügen oder entfernen.
- Allgemeines Intelligenzsignal: Der Score ist nicht an eine einzelne Kategorie gebunden. Er beantwortet eine praktische Frage: Wenn man die KI etwas fragt, wie wahrscheinlich ist eine korrekte Antwort?
Wir veröffentlichen die Methodik auf hoher Ebene für Transparenz und halten sensible Benchmark-Details privat.