Catatan perubahan

Log sederhana untuk pembaruan produk dan benchmark, dikelompokkan berdasarkan tanggal. Kami menggunakannya untuk mencatat model yang baru diuji, uji ulang, perubahan benchmark, dan pekerjaan UX/produk yang sudah dirilis.

2026-06-17

Model baru yang diuji: GLM 5.2, Kimi K2.7 Code, Claude Fable 5, Nemotron 3 Ultra, Qwen3.7 Plus, MiniMax M3, Step 3.7 Flash, Claude Opus 4.8 Added benchmark coverage for newly released models missing from the changelog: Z.ai GLM 5.2, MoonshotAI Kimi K2.7 Code, Anthropic Claude Fable 5, NVIDIA Nemotron 3 Ultra 550B A55B, Qwen 3.7 Plus, MiniMax M3, StepFun Step 3.7 Flash, and Anthropic Claude Opus 4.8.
Fitur baru: Updated scoring to use per-category bias adjustments, so category-level differences are normalized before they roll into leaderboard results.
Perbaikan bug: Adjusted missing-test handling so models are not scored as if unavailable tests were valid wrong answers.
UX: Leaderboard search now supports comma-separated model queries, so searches like "deepseek, glm" show matches for either model family.

2026-05-22

Model baru yang diuji: Qwen3.7 Max Menambahkan cakupan benchmark untuk Qwen 3.7 Max.
Tes baru ditambahkan: Menambahkan kategori tes Coding baru yang berfokus pada pencarian bug dalam solusi C++.

2026-05-21

Model baru yang diuji: Gemini 3.5 Flash, Grok Build 0.1 Menambahkan cakupan benchmark untuk Google Gemini 3.5 Flash dan xAI Grok Build 0.1.
Perbaikan bug: Menghapus varian xAI Grok Build 0.1 tanpa reasoning yang tidak didukung setelah validasi penyedia mewajibkan reasoning.

2026-05-08

Model baru yang diuji: Gemini 3.1 Flash Lite Added benchmark coverage for Google Gemini 3.1 Flash Lite.
Perbaikan bug: Reasoning chips and compare labels now recognize the minimal reasoning variant instead of falling back to auto.
UX: Model pages now order sibling reasoning-variant chips from highest effort to lowest.

2026-05-06

Model baru yang diuji: Cobuddy Cakupan benchmark untuk Baidu CoBuddy telah ditambahkan.

2026-05-01

Model baru yang diuji: Grok 4.3, Granite 4.1 8B Cakupan benchmark untuk xAI Grok 4.3 dan IBM Granite 4.1 8B telah ditambahkan.

2026-04-30

Model baru yang diuji: Owl Alpha Cakupan benchmark untuk Owl Alpha telah ditambahkan.

2026-04-26

UX: Memperbaiki posisi dropdown perbandingan di seluler, merapikan tata letak halaman model, dan membagi riwayat run menjadi shard per model agar halaman memuat lebih sedikit data historis.
Perbaikan bug: Riwayat run kini mengelompokkan retest suite yang hampir duplikat dan menampilkan semua run publik dalam tabel perbandingan langsung di halaman model.

2026-04-25

Fitur baru: Menambahkan telemetri keandalan agar kegagalan API target dan batas laju dilacak terpisah dari jawaban salah.

2026-04-24

Model baru yang diuji: DeepSeek V4 Flash, DeepSeek V4 Pro Cakupan benchmark untuk DeepSeek V4 Flash dan DeepSeek V4 Pro telah ditambahkan.
Model baru yang diuji: GPT-5.5 Cakupan benchmark untuk OpenAI GPT-5.5 telah ditambahkan.
Perbaikan bug: Tautan model di changelog kini mengarah ke halaman model live kanonis, dan halaman model kini juga saling menautkan antar varian penalaran.

2026-04-23

Model baru yang diuji: inclusionai/ling-2.6-1t:free Cakupan benchmark untuk InclusionAI Ling 2.6 1T Free telah ditambahkan.
Fitur baru: Riwayat run - Halaman model kini menampilkan run publik historis dan tabel perbandingan run berdampingan. (Halaman model contoh)
UX: Leaderboard kini mendukung pagination dan filter berbasis URL, serta aksi compare langsung dari daftar peringkat.
Perbaikan bug: Pencarian homepage, jumlah filter, dan state pagination kini tetap konsisten di seluruh dataset.
Uji ulang: GLM 5.1 Suite benchmark lengkap dijalankan ulang dan snapshot publik riwayat run untuk model ini dibersihkan.
Perbaikan bug: Model yang sebenarnya tidak diuji ulang tidak lagi menerima timestamp tested_at baru.

Halaman changelog dibuat

Changelog ini dimulai setelah peluncuran, jadi beberapa pembaruan lama tidak tercantum di sini.

2026-02-15

Rilis awal