AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY

Catatan perubahan

Log sederhana untuk pembaruan produk dan benchmark, dikelompokkan berdasarkan tanggal. Kami menggunakannya untuk mencatat model yang baru diuji, uji ulang, perubahan benchmark, dan pekerjaan UX/produk yang sudah dirilis.

2026-05-08

  • Model baru yang diuji: Gemini 3.1 Flash Lite Added benchmark coverage for Google Gemini 3.1 Flash Lite.
  • Perbaikan bug: Reasoning chips and compare labels now recognize the minimal reasoning variant instead of falling back to auto.
  • UX: Model pages now order sibling reasoning-variant chips from highest effort to lowest.

2026-05-06

  • Model baru yang diuji: Cobuddy Cakupan benchmark untuk Baidu CoBuddy telah ditambahkan.

2026-05-01

  • Model baru yang diuji: Grok 4.3, Granite 4.1 8B Cakupan benchmark untuk xAI Grok 4.3 dan IBM Granite 4.1 8B telah ditambahkan.

2026-04-30

  • Model baru yang diuji: Owl Alpha Cakupan benchmark untuk Owl Alpha telah ditambahkan.

2026-04-26

  • UX: Memperbaiki posisi dropdown perbandingan di seluler, merapikan tata letak halaman model, dan membagi riwayat run menjadi shard per model agar halaman memuat lebih sedikit data historis.
  • Perbaikan bug: Riwayat run kini mengelompokkan retest suite yang hampir duplikat dan menampilkan semua run publik dalam tabel perbandingan langsung di halaman model.

2026-04-25

  • Fitur baru: Menambahkan telemetri keandalan agar kegagalan API target dan batas laju dilacak terpisah dari jawaban salah.

2026-04-24

  • Model baru yang diuji: DeepSeek V4 Flash, DeepSeek V4 Pro Cakupan benchmark untuk DeepSeek V4 Flash dan DeepSeek V4 Pro telah ditambahkan.
  • Model baru yang diuji: GPT-5.5 Cakupan benchmark untuk OpenAI GPT-5.5 telah ditambahkan.
  • Perbaikan bug: Tautan model di changelog kini mengarah ke halaman model live kanonis, dan halaman model kini juga saling menautkan antar varian penalaran.

2026-04-23

  • Model baru yang diuji: inclusionai/ling-2.6-1t:free Cakupan benchmark untuk InclusionAI Ling 2.6 1T Free telah ditambahkan.
  • Fitur baru: Riwayat run - Halaman model kini menampilkan run publik historis dan tabel perbandingan run berdampingan. (Halaman model contoh)
  • UX: Leaderboard kini mendukung pagination dan filter berbasis URL, serta aksi compare langsung dari daftar peringkat.
  • Perbaikan bug: Pencarian homepage, jumlah filter, dan state pagination kini tetap konsisten di seluruh dataset.
  • Uji ulang: GLM 5.1 Suite benchmark lengkap dijalankan ulang dan snapshot publik riwayat run untuk model ini dibersihkan.
  • Perbaikan bug: Model yang sebenarnya tidak diuji ulang tidak lagi menerima timestamp tested_at baru.

Halaman changelog dibuat

Changelog ini dimulai setelah peluncuran, jadi beberapa pembaruan lama tidak tercantum di sini.

2026-02-15

  • Rilis awal