AI BENCHY

Metodologi benchmark

Halaman ini menjelaskan pendekatan benchmarking kami pada tingkat tinggi. Prompt yang tepat dan detail penilaian internal tetap kami rahasiakan untuk menjaga integritas pengujian.

Cara Kerja (tingkat tinggi)

Tes privat: kami tidak memublikasikan isi tes yang persis, prompt, atau detail penilaian lengkap.
Run berulang: setiap model dijalankan beberapa kali agar hasil mencerminkan stabilitas, bukan satu percobaan beruntung.
Mode reasoning: saat didukung, model dievaluasi pada beberapa konfigurasi reasoning.
Eksekusi melalui OpenRouter: permintaan benchmark dirutekan melalui OpenRouter.
Keandalan dunia nyata: timeout, downtime, dan error API dihitung sebagai percobaan gagal.
Cakupan cepat dengan suite yang terus berkembang: karena suite kami lebih kecil, kami bisa menguji model baru lebih cepat serta terus menambah atau menghapus tes.
Sinyal kecerdasan umum: skor tidak terikat pada satu kategori. Ini indikator luas untuk pertanyaan praktis: jika Anda bertanya sesuatu pada AI, seberapa besar kemungkinan jawabannya benar?

Kami memublikasikan metodologi secara umum untuk transparansi sambil menjaga detail benchmark yang sensitif tetap privat.