MoonshotAI: Kimi K2.5 vs Nemotron 3 Ultra 550b A55b
Ringkasan
Perbandingan benchmark Kimi K2.5 vs Nemotron 3 Ultra 550b A55b: Nemotron 3 Ultra 550b A55b unggul dalam skor rata-rata dengan 8.1 vs 7.5. Nemotron 3 Ultra 550b A55b memiliki biaya benchmark lebih rendah di $0.158 vs $0.348. Nemotron 3 Ultra 550b A55b lebih cepat di 15.05s vs 98.43s, dengan tingkat keberhasilan 68.3% vs 69.8%.
Model yang direkomendasikan: Nemotron 3 Ultra 550b A55b - It has the best score here (8.1), while costing about 2.2x less than Kimi K2.5.
Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-07-02
10.0Skor sukses percobaan pertama: 10.0 berarti tidak ada kegagalan API target atau batas laju yang dapat dicoba ulang sebelum panggilan berhasil; kegagalan yang tercatat menurunkan skor.…
9.7Skor sukses percobaan pertama: 10.0 berarti tidak ada kegagalan API target atau batas laju yang dapat dicoba ulang sebelum panggilan berhasil; kegagalan yang tercatat menurunkan skor.…
Konsistensi
6.9Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
8.8Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 7Kesalahan API: 1Waktu respons (rata-rata)15.05sWaktu respons (maks)43.93sWaktu respons (total)316.09sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
Tingkat lulus per percobaan
68.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
69.8%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
Tes tidak stabil
8Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
3Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Total Run
63Total Run…
63Total Run…
Biaya per hasil
3.704Menampilkan biaya rata-rata per jawaban benchmark yang benar dalam sen (semakin rendah semakin baik).…
0.000Menampilkan biaya rata-rata per jawaban benchmark yang benar dalam sen (semakin rendah semakin baik).…
Total Biaya
$0.348Total biaya (harga saat ini)…
$0.158Total biaya (harga saat ini)…
Harga input
$0.375 / 1MHarga input…
$0.500 / 1MHarga input…
Harga output
$2.025 / 1MHarga output…
$2.200 / 1MHarga output…
Total token input
34,312Total token input…
46,813Total token input…
Token output
48,379Token output…
18,002Token output…
Token penalaran
157,747Token penalaran…
53,091Token penalaran…
Waktu respons (rata-rata)
98.43sWaktu respons (rata-rata)…
15.05sWaktu respons (rata-rata)…
Waktu respons (maks)
281.00sWaktu respons (maks)…
43.93sWaktu respons (maks)…
Waktu respons (total)
1378.03sWaktu respons (total)…
316.09sWaktu respons (total)…
Showcase generasi
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
5.8Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
83.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
2Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban: 1Jawaban salah: 1Waktu respons (rata-rata)51.38sWaktu respons (maks)85.28sWaktu respons (total)102.75sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)8.62sWaktu respons (maks)16.86sWaktu respons (total)34.49sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
4.6Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
66.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
2Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban: 1Kedaluwarsa: 1Waktu respons (rata-rata)217.49sWaktu respons (maks)281.00sWaktu respons (total)652.48sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
7.4Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
88.9%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)26.53sWaktu respons (maks)31.91sWaktu respons (total)79.58sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)71.37sWaktu respons (maks)71.37sWaktu respons (total)71.37sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)43.93sWaktu respons (maks)43.93sWaktu respons (total)43.93sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)49.78sWaktu respons (maks)49.78sWaktu respons (total)49.78sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)5.68sWaktu respons (maks)7.94sWaktu respons (total)11.36sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
4.4Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
33.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
2Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Kedaluwarsa: 1Waktu respons (rata-rata)137.29sWaktu respons (maks)137.29sWaktu respons (total)137.29sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
4.4Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
33.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
2Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Waktu respons (rata-rata)24.90sWaktu respons (maks)34.96sWaktu respons (total)74.71sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
3.4Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
66.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)69.73sWaktu respons (maks)69.73sWaktu respons (total)69.73sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
9.5Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kesalahan API: 1Waktu respons (rata-rata)2.52sWaktu respons (maks)2.52sWaktu respons (total)2.52sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)92.47sWaktu respons (maks)92.47sWaktu respons (total)92.47sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)6.35sWaktu respons (maks)9.38sWaktu respons (total)12.69sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
7.3Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
44.4%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Jawaban salah: 1Waktu respons (rata-rata)43.23sWaktu respons (maks)82.75sWaktu respons (total)86.47sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
9.9Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
33.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)3.54sWaktu respons (maks)6.03sWaktu respons (total)10.62sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)31.74sWaktu respons (maks)31.74sWaktu respons (total)31.74sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)7.72sWaktu respons (maks)7.72sWaktu respons (total)7.72sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)83.95sWaktu respons (maks)83.95sWaktu respons (total)83.95sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)38.47sWaktu respons (maks)38.47sWaktu respons (total)38.47sTes dianggap lulus penuh hanya jika semua run-nya lulus.…