#73

gpt-oss-120b

OpenAI Rilis: 2025-08-05 Diuji pada: 2026-04-21 12:42 openai/gpt-oss-120b::medium

(medium) (none)

Ringkasan

gpt-oss-120b mendapat skor 5.8 di AI BENCHY dan berada di peringkat #73. Model ini memiliki reliabilitas T/A, tingkat keberhasilan 51.9%, total biaya $0.011, dan waktu respons rata-rata 16.08s.

Yang membuat gpt-oss-120b unik: Total biaya benchmark-nya sangat rendah untuk kisaran skornya.

Skor

5.8

Konsistensi

7.2

Keandalan

T/A

Total biaya (harga saat ini)

$0.011

Total token output

50,372

Total token input

Harga input

$0.000 / 1M

Harga output

$0.000 / 1M

Tes benar

Tes Salah: 11

Tingkat lulus per percobaan: 51.9%

Tes tidak stabil

Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).

Waktu respons (rata-rata)

16.08s

Waktu respons (maks): 50.92s

Waktu respons (total): 176.88s

Jawaban salah: 7 Tidak mengikuti instruksi: 4

Showcase generasi

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#73 gpt-oss-120b

medium

Biaya: $0.001
Waktu: 26.7s
Token: 555 tok

Riwayat run

Diuji pada	Skor	Keandalan	Total Biaya	Bandingkan
2026-06-04 13:44 Tes baru ditambahkan	6.1	10.0	$0.013 ↓	Bandingkan
2026-05-22 00:18 Suite berubah	5.6	10.0	$0.012	Bandingkan
2026-04-21 12:42 Run pertama yang tercatat	5.8	T/A	$0.011	Run saat ini

Grafik

Pilih model pertama, lalu klik model kedua untuk membuka halaman berdampingan.

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Perbandingan Cepat

Rincian Kategori

Kategori	Skor	Konsistensi
Trik anti-AI	6.7	9.9
Pemrograman	4.3	1.1
Gabungan	10.0	10.0
Parsing dan ekstraksi data	6.4	5.9
Spesifik domain	2.9	4.4
Kecerdasan umum	4.3	10.0
Kepatuhan instruksi	9.9	10.0
Pemecahan teka-teki	3.2	4.7
Pemanggilan alat	9.8	10.0

gpt-oss-120b

Hamster playing table tennis

#73 gpt-oss-120b

Grafik

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Perbandingan Cepat

Rincian Kategori

Model yang Dibandingkan