#60

Step 3.7 Flash

Stepfun Rilis: 2026-05-29 Diuji pada: 2026-05-29 11:49 stepfun/step-3.7-flash::low

(high) (medium) (low)

Ringkasan

Step 3.7 Flash mendapat skor 7.4 di AI BENCHY dan berada di peringkat #60. Model ini memiliki reliabilitas 10.0, tingkat keberhasilan 68.3%, total biaya $0.336, dan waktu respons rata-rata 16.06s.

Yang membuat Step 3.7 Flash unik: Model ini paling menonjol di Pemrograman, dengan peringkat #1, sementara Kecerdasan umum adalah area terlemahnya di #15.

Skor

7.4

Konsistensi

8.7

Keandalan

10.0

Total biaya (harga saat ini)

$0.336

Total token output

285,209

Total token input

Harga input

$0.200 / 1M

Harga output

$1.150 / 1M

Tes benar

Tes Salah: 8

Tingkat lulus per percobaan: 68.3%

Tes tidak stabil

Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).

Waktu respons (rata-rata)

16.06s

Waktu respons (maks): 124.75s

Waktu respons (total): 321.11s

Jawaban salah: 7 Tidak ada jawaban: 1

Showcase generasi

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#60 Step 3.7 Flash

low

SVG tidak valid

Biaya: $0.004
Waktu: 25.3s
Token: 3,072 tok

Riwayat run

Diuji pada	Skor	Keandalan	Tes benar	Total Biaya	Bandingkan
2026-06-04 13:49 Tes baru ditambahkan	7.3	10.0		$0.341	Bandingkan
2026-05-29 11:49 Run awal	7.4	10.0		$0.336	Run saat ini

Grafik

Pilih model pertama, lalu klik model kedua untuk membuka halaman berdampingan.

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Perbandingan Cepat

Step 3.7 FlashlowvsGrok 4.3medium Step 3.7 FlashlowvsQwen3.5-122B-A10Bmedium Step 3.7 FlashlowvsMiniMax M3medium Step 3.7 FlashlowvsKimi K2.6mediumTersedia gratis Step 3.7 FlashlowvsDeepSeek V4 Prohigh Step 3.7 FlashlowvsGemini 3.5 Flashhigh Step 3.7 FlashlowvsGemini 3 Flash Previewmedium Step 3.7 FlashlowvsNemotron 3 Ultra 550b A55bmediumTersedia gratis Step 3.7 FlashlowvsGPT-5.5low

Rincian Kategori

Kategori	Skor	Konsistensi
Trik anti-AI	8.7	7.9
Pemrograman	10.0	10.0
Gabungan	10.0	10.0
Parsing dan ekstraksi data	7.3	5.8
Spesifik domain	5.3	7.2
Kecerdasan umum	3.4	9.3
Kepatuhan instruksi	9.8	10.0
Pemecahan teka-teki	5.5	9.9
Pemanggilan alat	10.0	10.0
Pengetahuan umum	3.0	10.0

Step 3.7 Flash

Hamster playing table tennis

#60 Step 3.7 Flash

Grafik

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Perbandingan Cepat

Rincian Kategori

Model yang Dibandingkan