#91

gpt-oss-120b

OpenAI Veröffentlichung: 2025-08-05 Getestet am: 2026-04-21 12:42 openai/gpt-oss-120b::none

(medium) (none)

Zusammenfassung

gpt-oss-120b erreicht 5.2 bei AI BENCHY und liegt auf #91. Das Modell hat k. A. Zuverlässigkeit, 38.9% Erfolgsrate, $0.009 Gesamtkosten und 11.96s durchschnittliche Antwortzeit.

Was gpt-oss-120b besonders macht: Die Benchmark-Gesamtkosten sind für diese Leistungsklasse ungewöhnlich niedrig.

Punktzahl

5.2

Konsistenz

7.9

Zuverlässigkeit

k. A.

Gesamtkosten (aktueller Preis)

$0.009

Gesamte Ausgabe-Token

44,652

Gesamte Eingabe-Token

Eingabepreis

$0.000 / 1M

Ausgabepreis

$0.000 / 1M

Korrekte Tests

Falsche Tests: 14

Erfolgsquote pro Versuch: 38.9%

Instabile Tests

Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).

Antwortzeit (Durchschnitt)

11.96s

Antwortzeit (Maximum): 68.97s

Antwortzeit (Gesamt): 179.34s

Falsche Antwort: 6 Anweisungen nicht befolgt: 5 API-Fehler: 3

Testverlauf

Getestet am	Punktzahl	Zuverlässigkeit	Korrekte Tests	Gesamtkosten	Vergleichen
2026-05-08 15:31 Suite geändert	5.4	10.0		$0.010 ↓	Vergleichen
2026-04-21 12:42 Erster erfasster Lauf	5.2	k. A.		$0.009	Aktueller Lauf

Diagramme

Wähle zuerst das erste Modell und klicke dann ein zweites Modell, um eine Seite im direkten Vergleich zu öffnen.

Top-Modelle nach Score

Punktzahl vs Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Schnellvergleich

Kategorieaufschlüsselung

Kategorie	Punktzahl	Konsistenz
Anti-KI-Tricks	6.6	8.0
Programmierung	4.3	1.1
Kombiniert	3.0	10.0
Datenanalyse und -extraktion	6.5	10.0
Domänenspezifisch	3.0	10.0
Allgemeine Intelligenz	4.6	10.0
Befolgung von Anweisungen	8.4	6.9
Rätsellösen	4.5	4.8
Werkzeugaufrufe	3.0	10.0

gpt-oss-120b

Diagramme

Top-Modelle nach Score

Punktzahl vs Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Schnellvergleich

Kategorieaufschlüsselung

Verglichene Modelle