AI BENCHY
Bandingkan Grafik
โค๏ธ Made by XCS
Your ad here

#50

Mercury 2

Inception ยท Rilis: 2026-02-24 ยท inception/mercury-2::none

Skor Rata-rata

31

Biaya per hasil

0.196

Konsistensi

89

Total Biaya

$0.006

Tes benar

3

Tes dianggap lulus penuh hanya jika semua run-nya lulus.

Tes Salah

12

Tingkat lulus per percobaan: 26.7%

Tes tidak stabil

2

Waktu respons: rata-rata 594ms ยท total 8.91s ยท maks 1.27s

Jawaban salah: 11 Tidak mengikuti instruksi: 1

Model teratas berdasarkan skor

Pilih model pertama, lalu klik model kedua untuk membuka halaman berdampingan.

Perbandingan Cepat

Rincian Kategori

Kategori Skor Rata-rata Konsistensi Tes benar
Anti-AI Tricks 100 100 0/3
Combined 100 100 0/1
Data parsing and extraction 55 59 1/2
Domain specific 40 72 1/3
Instructions following 35 100 0/2
Puzzle Solving 100 100 0/3
Tool Calling 100 100 1/1