Nemotron 3 Ultra 550b A55b vs StepFun: Step 3.5 Flash
Ringkasan
Perbandingan benchmark Nemotron 3 Ultra 550b A55b vs Step 3.5 Flash: Nemotron 3 Ultra 550b A55b unggul dalam skor rata-rata dengan 8.1 vs 2.6. Step 3.5 Flash memiliki biaya benchmark lebih rendah di $0.020 vs $0.158. Nemotron 3 Ultra 550b A55b lebih cepat di 15.05s vs 39.03s, dengan tingkat keberhasilan 69.8% vs 28.6%.
Model yang direkomendasikan: Nemotron 3 Ultra 550b A55b - It has the best score here (8.1), while responding about 2.6x faster than Step 3.5 Flash.
Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-06-18
Step 3.5 FlashStep 3.5 FlashnoneModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.Rilis: 2026-02-01
Skor
8.1Skor rata-rata di semua tes benchmark.…
2.6Skor rata-rata di semua tes benchmark.…
Peringkat
#26
#168
Keandalan
9.7Skor sukses percobaan pertama: 10.0 berarti tidak ada kegagalan API target atau batas laju yang dapat dicoba ulang sebelum panggilan berhasil; kegagalan yang tercatat menurunkan skor.…
10.0Skor sukses percobaan pertama: 10.0 berarti tidak ada kegagalan API target atau batas laju yang dapat dicoba ulang sebelum panggilan berhasil; kegagalan yang tercatat menurunkan skor.…
Konsistensi
8.8Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
5.7Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
Tes benar
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 7Kesalahan API: 1Waktu respons (rata-rata)15.05sWaktu respons (maks)43.93sWaktu respons (total)316.09sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kesalahan API: 4Tidak mengikuti instruksi: 1Jawaban salah: 1Waktu respons (rata-rata)39.03sWaktu respons (maks)114.12sWaktu respons (total)312.26sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
Tingkat lulus per percobaan
69.8%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
28.6%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
Tes tidak stabil
3Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Total Run
63Total Run…
36Total Run…
Biaya per hasil
0.000Menampilkan biaya rata-rata per jawaban benchmark yang benar dalam sen (semakin rendah semakin baik).…
0.328Menampilkan biaya rata-rata per jawaban benchmark yang benar dalam sen (semakin rendah semakin baik).…
Total Biaya
$0.158Total biaya (harga saat ini)…
$0.020Total biaya (harga saat ini)…
Harga input
$0.500 / 1MHarga input…
$0.090 / 1MHarga input…
Harga output
$2.200 / 1MHarga output…
$0.300 / 1MHarga output…
Total token input
46,813Total token input…
1,971Total token input…
Token output
18,002Token output…
64,795Token output…
Token penalaran
53,091Token penalaran…
0Token penalaran…
Waktu respons (rata-rata)
15.05sWaktu respons (rata-rata)…
39.03sWaktu respons (rata-rata)…
Waktu respons (maks)
43.93sWaktu respons (maks)…
114.12sWaktu respons (maks)…
Waktu respons (total)
316.09sWaktu respons (total)…
312.26sWaktu respons (total)…
Showcase generasi
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)8.62sWaktu respons (maks)16.86sWaktu respons (total)34.49sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
8.62sWaktu respons (rata-rata)…
780Total token input…
835Token output…
1,485Token penalaran…
Step 3.5 FlashModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)34.99sWaktu respons (maks)109.60sWaktu respons (total)139.95sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
7.4Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
88.9%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)26.53sWaktu respons (maks)31.91sWaktu respons (total)79.58sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
26.53sWaktu respons (rata-rata)…
7,686Total token input…
2,854Token output…
17,725Token penalaran…
Step 3.5 FlashModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
9.8Skor rata-rata di semua tes benchmark.…
3.3Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kesalahan API: 1Waktu respons (rata-rata)0msWaktu respons (maks)0msWaktu respons (total)0msTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)43.93sWaktu respons (maks)43.93sWaktu respons (total)43.93sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
43.93sWaktu respons (rata-rata)…
17,574Total token input…
1,040Token output…
3,590Token penalaran…
Step 3.5 FlashModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
3.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kesalahan API: 1Waktu respons (rata-rata)0msWaktu respons (maks)0msWaktu respons (total)0msTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)5.68sWaktu respons (maks)7.94sWaktu respons (total)11.36sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
5.68sWaktu respons (rata-rata)…
7,989Total token input…
473Token output…
1,285Token penalaran…
Step 3.5 FlashModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
1.5Skor rata-rata di semua tes benchmark.…
5.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kesalahan API: 1Waktu respons (rata-rata)0msWaktu respons (maks)0msWaktu respons (total)0msTes dianggap lulus penuh hanya jika semua run-nya lulus.…
4.4Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
33.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
2Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Waktu respons (rata-rata)24.90sWaktu respons (maks)34.96sWaktu respons (total)74.71sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
24.90sWaktu respons (rata-rata)…
858Total token input…
11,169Token output…
16,249Token penalaran…
Step 3.5 FlashModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
3.3Skor rata-rata di semua tes benchmark.…
3.3Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
33.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)34.54sWaktu respons (maks)34.54sWaktu respons (total)34.54sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
9.5Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kesalahan API: 1Waktu respons (rata-rata)2.52sWaktu respons (maks)2.52sWaktu respons (total)2.52sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
2.52sWaktu respons (rata-rata)…
360Total token input…
70Token output…
235Token penalaran…
Step 3.5 FlashModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
4.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)14.37sWaktu respons (maks)14.37sWaktu respons (total)14.37sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)6.35sWaktu respons (maks)9.38sWaktu respons (total)12.69sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
6.35sWaktu respons (rata-rata)…
765Total token input…
182Token output…
1,243Token penalaran…
Step 3.5 FlashModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
5.0Skor rata-rata di semua tes benchmark.…
5.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
50.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)9.30sWaktu respons (maks)9.30sWaktu respons (total)9.30sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
9.9Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
33.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)3.54sWaktu respons (maks)6.03sWaktu respons (total)10.62sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
3.54sWaktu respons (rata-rata)…
792Total token input…
771Token output…
2,055Token penalaran…
Step 3.5 FlashModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
0.0Skor rata-rata di semua tes benchmark.…
0.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)0msWaktu respons (maks)0msWaktu respons (total)0msTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)7.72sWaktu respons (maks)7.72sWaktu respons (total)7.72sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
7.72sWaktu respons (rata-rata)…
9,781Total token input…
304Token output…
984Token penalaran…
Step 3.5 FlashModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
3.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kesalahan API: 1Waktu respons (rata-rata)0msWaktu respons (maks)0msWaktu respons (total)0msTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)38.47sWaktu respons (maks)38.47sWaktu respons (total)38.47sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
38.47sWaktu respons (rata-rata)…
228Total token input…
304Token output…
8,240Token penalaran…
Step 3.5 FlashModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
3.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)114.12sWaktu respons (maks)114.12sWaktu respons (total)114.12sTes dianggap lulus penuh hanya jika semua run-nya lulus.…