AI BENCHY

Metodologi benchmark

Halaman ini menjelaskan pendekatan benchmarking kami pada tingkat tinggi. Prompt yang tepat dan detail penilaian internal tetap kami rahasiakan untuk menjaga integritas pengujian.

Tes

Pertanyaannya sebagian besar dipilih cukup acak, dari berbagai tugas dan domain. Secara statistik, model yang lebih baik seharusnya rata-rata tampil lebih baik daripada model yang lebih lemah pada tugas acak yang tidak dipilih khusus. Saya punya latar belakang competitive programming, jadi memikirkan tes dan edge case terasa alami bagi saya.

Ini bukan nilai "IQ" yang terstandarisasi. Skor ini tidak punya satuan; ini hanya nilai arbitrer yang menunjukkan seberapa baik model bekerja di seluruh suite tes (jawaban benar + konsistensi). Saya tidak memilih model secara cherry-pick, dan saya juga tidak mengubah tes untuk mengakomodasi model tertentu. Saat saya memikirkan tes baru, saya menambahkannya, menguji ulang semua model, dan menghitung ulang skornya.

Pertanyaannya biasanya berawal dari ide sederhana seperti: "Saya penasaran apakah model-model ini bagus ketika diminta melakukan X, Y, atau Z." Contohnya: "Jawablah dengan dua bilangan asli yang sama, a dan b, yang jika dijumlahkan menghasilkan total 2. Jawab tepat dengan format ini: a,b". Beberapa AI bisa menjawab salah, misalnya "2,2". Yang lain mungkin tidak mengikuti syarat bahwa angkanya harus sama, misalnya "0,2". Yang lain bisa mengabaikan format output, misalnya "The answer is a = 1 and b = 1". Dan yang lain bisa saja langsung menjawab benar dengan "1,1".

Sebagian tes lebih kompleks dari contoh ini, tapi kurang lebih itulah intinya. Ini tidak menguntungkan model tertentu, dan pertanyaan-pertanyaan ini pada umumnya sangat mudah bagi manusia.

Cristian

Cara Kerja (tingkat tinggi)

Tes privat: kami tidak memublikasikan isi tes yang persis, prompt, atau detail penilaian lengkap.
Run berulang: setiap model dijalankan beberapa kali agar hasil mencerminkan stabilitas, bukan satu percobaan beruntung.
Mode reasoning: saat didukung, model dievaluasi pada beberapa konfigurasi reasoning.
Eksekusi melalui OpenRouter: permintaan benchmark dirutekan melalui OpenRouter.
Keandalan dunia nyata: timeout, downtime, dan error API dihitung sebagai percobaan gagal.
Cakupan cepat dengan suite yang terus berkembang: karena suite kami lebih kecil, kami bisa menguji model baru lebih cepat serta terus menambah atau menghapus tes.
Sinyal kecerdasan umum: skor tidak terikat pada satu kategori. Ini indikator luas untuk pertanyaan praktis: jika Anda bertanya sesuatu pada AI, seberapa besar kemungkinan jawabannya benar?

Kami memublikasikan metodologi secara umum untuk transparansi sambil menjaga detail benchmark yang sensitif tetap privat.