Zusammenfassung
Grok Build 0.1 erreicht 6.6 bei AI BENCHY und liegt auf #82. Das Modell hat 10.0 Zuverlässigkeit, 60.4% Erfolgsrate, $0.547 Gesamtkosten und 28.69s durchschnittliche Antwortzeit.
Was Grok Build 0.1 besonders macht: Am stärksten ist es in Programmierung, wo es #1 erreicht; am schwächsten ist Kombiniert mit #13.
Archiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
6.6
Konsistenz
8.0
10.0
Gesamte Ausgabe-Token
267,275
Gesamte Eingabe-Token
0
Eingabepreis
$1.000 / 1M
Ausgabepreis
$2.000 / 1M
Instabile Tests
4
Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).
Testverlauf
| Getestet am | Punktzahl | Zuverlässigkeit | Korrekte Tests | Gesamtkosten | Vergleichen |
|---|---|---|---|---|---|
| 2026-05-21 12:40 Erneuter Test | 6.0 | 10.0 | $0.547 | Vergleichen | |
| 2026-05-21 12:40 Erneuter Test | 6.6 | 10.0 | $0.547 | Aktueller Lauf |
Diagramme
Wähle zuerst das erste Modell und klicke dann ein zweites Modell, um eine Seite im direkten Vergleich zu öffnen.
Punktzahl vs Gesamtkosten
Antwortzeit (Durchschnitt)
Punktzahl vs Antwortzeit (Durchschnitt)
Gesamte Ausgabe-Token
Punktzahl vs Gesamte Ausgabe-Token
Schnellvergleich
Kategorieaufschlüsselung
| Kategorie | Punktzahl | Konsistenz | Korrekte Tests |
|---|---|---|---|
| Anti-KI-Tricks | 8.7 | 7.9 | |
| Programmierung | 10.0 | 10.0 | |
| Kombiniert | 0.0 | 0.0 | |
| Datenanalyse und -extraktion | 4.7 | 1.6 | |
| Domänenspezifisch | 3.6 | 7.2 | |
| Allgemeine Intelligenz | 4.3 | 10.0 | |
| Befolgung von Anweisungen | 9.8 | 10.0 | |
| Rätsellösen | 6.4 | 7.7 | |
| Werkzeugaufrufe | 0.0 | 0.0 | |
| Allgemeinwissen | 3.0 | 10.0 |