AI BENCHY
Bandingkan Grafik Metodologi
โค๏ธ Made by XCS
AD
Track all your projects in one dashboard. Get ๐Ÿ“Šstats, ๐Ÿ”ฅheatmaps and ๐Ÿ‘€recordings in one self-hosted dashboard.
uxwizz.com

#13

Step 3.5 Flash

Stepfun ยท Rilis: 2026-02-01 ยท stepfun/step-3.5-flash::medium

Skor Rata-rata

7.4

Biaya per hasil

0.000

Konsistensi

9.1

Total Biaya

$0.000

Tes benar

Tes Salah: 6

Tingkat lulus per percobaan: 68.8%

Tes tidak stabil

2

Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).

Waktu respons (rata-rata)

29.10s

Waktu respons (maks): 170.45s

Waktu respons (total): 290.96s

Tidak mengikuti instruksi: 3 Jawaban salah: 3

Grafik

Pilih model pertama, lalu klik model kedua untuk membuka halaman berdampingan.

Perbandingan Cepat

Rincian Kategori

Kategori Skor Rata-rata Konsistensi Tes benar
Anti-AI Tricks 10.0 10.0
Combined 10.0 10.0
Data parsing and extraction 10.0 10.0
Domain specific 4.0 7.2
General Intelligence 6.0 10.0
Instructions following 9.0 6.8
Puzzle Solving 4.0 10.0
Tool Calling 10.0 10.0