Perbandingan benchmark North Mini Code vs Kimi K2.6: Skor rata-rata hampir imbang di 5.8 vs 5.8. North Mini Code memiliki biaya benchmark lebih rendah di $0.000 vs $0.079. Kimi K2.6 lebih cepat di 13.27s vs 106.18s, dengan tingkat keberhasilan 50.8% vs 36.5%.
Model yang direkomendasikan: Kimi K2.6 - It has the best score here (5.8), while responding about 8.0x faster than North Mini Code.
Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-06-18
8.5Skor sukses percobaan pertama: 10.0 berarti tidak ada kegagalan API target atau batas laju yang dapat dicoba ulang sebelum panggilan berhasil; kegagalan yang tercatat menurunkan skor.…
10.0Skor sukses percobaan pertama: 10.0 berarti tidak ada kegagalan API target atau batas laju yang dapat dicoba ulang sebelum panggilan berhasil; kegagalan yang tercatat menurunkan skor.…
Konsistensi
8.5Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
9.2Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
Tes benar
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 9Format tambahan: 2Kesalahan API: 1Waktu respons (rata-rata)106.18sWaktu respons (maks)357.05sWaktu respons (total)2229.70sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 11Tidak mengikuti instruksi: 3Waktu respons (rata-rata)13.27sWaktu respons (maks)238.89sWaktu respons (total)278.57sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
Tingkat lulus per percobaan
50.8%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
36.5%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
Tes tidak stabil
4Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
2Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Total Run
55Total Run…
63Total Run…
Biaya per hasil
0.000Menampilkan biaya rata-rata per jawaban benchmark yang benar dalam sen (semakin rendah semakin baik).…
1.267Menampilkan biaya rata-rata per jawaban benchmark yang benar dalam sen (semakin rendah semakin baik).…
Total Biaya
$0.000Total biaya (harga saat ini)…
$0.079Total biaya (harga saat ini)…
Harga input
$0.000 / 1MHarga input…
$0.680 / 1MHarga input…
Harga output
$0.000 / 1MHarga output…
$3.410 / 1MHarga output…
Total token input
32,891Total token input…
32,916Total token input…
Token output
424,772Token output…
16,410Token output…
Token penalaran
1,021,489Token penalaran…
0Token penalaran…
Waktu respons (rata-rata)
106.18sWaktu respons (rata-rata)…
13.27sWaktu respons (rata-rata)…
Waktu respons (maks)
357.05sWaktu respons (maks)…
238.89sWaktu respons (maks)…
Waktu respons (total)
2229.70sWaktu respons (total)…
278.57sWaktu respons (total)…
Generation showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
75.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Format tambahan: 1Waktu respons (rata-rata)64.79sWaktu respons (maks)230.24sWaktu respons (total)259.15sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
25.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Waktu respons (rata-rata)1.39sWaktu respons (maks)2.96sWaktu respons (total)5.56sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
4.9Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
33.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
2Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Waktu respons (rata-rata)320.43sWaktu respons (maks)357.05sWaktu respons (total)961.28sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
9.8Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
33.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Jawaban salah: 1Waktu respons (rata-rata)82.57sWaktu respons (maks)238.89sWaktu respons (total)247.72sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
1.6Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
33.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Format tambahan: 1Waktu respons (rata-rata)323.07sWaktu respons (maks)323.07sWaktu respons (total)323.07sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)3.38sWaktu respons (maks)3.38sWaktu respons (total)3.38sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)24.06sWaktu respons (maks)26.90sWaktu respons (total)48.13sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)1.32sWaktu respons (maks)1.39sWaktu respons (total)2.64sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
7.2Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
44.4%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)71.37sWaktu respons (maks)195.94sWaktu respons (total)214.11sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
7.2Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
44.4%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)1.48sWaktu respons (maks)1.85sWaktu respons (total)4.45sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)25.08sWaktu respons (maks)25.08sWaktu respons (total)25.08sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
3.5Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
33.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)1.55sWaktu respons (maks)1.55sWaktu respons (total)1.55sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)15.43sWaktu respons (maks)28.25sWaktu respons (total)30.85sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
50.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)1.64sWaktu respons (maks)1.80sWaktu respons (total)3.28sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Waktu respons (rata-rata)19.70sWaktu respons (maks)36.03sWaktu respons (total)59.10sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
9.9Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Tidak mengikuti instruksi: 1Waktu respons (rata-rata)1.40sWaktu respons (maks)1.81sWaktu respons (total)4.19sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.93sWaktu respons (maks)3.93sWaktu respons (total)3.93sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.46sWaktu respons (maks)4.46sWaktu respons (total)4.46sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kesalahan API: 1Waktu respons (rata-rata)305.02sWaktu respons (maks)305.02sWaktu respons (total)305.02sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)1.36sWaktu respons (maks)1.36sWaktu respons (total)1.36sTes dianggap lulus penuh hanya jika semua run-nya lulus.…