AI BENCHY
Metodologi benchmark
Halaman ini menjelaskan pendekatan benchmarking kami pada tingkat tinggi. Prompt yang tepat dan detail penilaian internal tetap kami rahasiakan untuk menjaga integritas pengujian.
Cara Kerja (tingkat tinggi)
- Tes privat: kami tidak memublikasikan isi tes yang persis, prompt, atau detail penilaian lengkap.
- Run berulang: setiap model dijalankan beberapa kali agar hasil mencerminkan stabilitas, bukan satu percobaan beruntung.
- Mode reasoning: saat didukung, model dievaluasi pada beberapa konfigurasi reasoning.
- Eksekusi melalui OpenRouter: permintaan benchmark dirutekan melalui OpenRouter.
- Keandalan dunia nyata: timeout, downtime, dan error API dihitung sebagai percobaan gagal.
- Cakupan cepat dengan suite yang terus berkembang: karena suite kami lebih kecil, kami bisa menguji model baru lebih cepat serta terus menambah atau menghapus tes.
- Sinyal kecerdasan umum: skor tidak terikat pada satu kategori. Ini indikator luas untuk pertanyaan praktis: jika Anda bertanya sesuatu pada AI, seberapa besar kemungkinan jawabannya benar?
Kami memublikasikan metodologi secara umum untuk transparansi sambil menjaga detail benchmark yang sensitif tetap privat.