#40
Mercury 2
Inception ยท Rilis: 2026-02-24 ยท inception/mercury-2::medium
Skor Rata-rata
48
Biaya per hasil
0.726
Konsistensi
83
Total Biaya
$0.044
Tes benar
6
Tes dianggap lulus penuh hanya jika semua run-nya lulus.
Tes Salah
9
Tingkat lulus per percobaan: 51.1%
Tes tidak stabil
3
Waktu respons: rata-rata 2.47s ยท total 34.56s ยท maks 14.63s
Jawaban salah: 5 Tidak mengikuti instruksi: 3 Kesalahan API: 1
Model teratas berdasarkan skor
Pilih model pertama, lalu klik model kedua untuk membuka halaman berdampingan.
Perbandingan Cepat
Mercury 2mediumvsQwen3.5-122B-A10BnoneMercury 2mediumvsQwen3.5-FlashnoneMercury 2mediumvsDeepSeek V3.2noneMercury 2mediumvsMiniMax M2.5mediumMercury 2mediumvsQwen3.5-27BnoneMercury 2mediumvsQwen3.5-35B-A3BnoneMercury 2mediumvsGemini 3 Flash PreviewmediumMercury 2mediumvsGemini 3.1 Pro PreviewmediumMercury 2mediumvsStep 3.5 FlashmediumTersedia gratis
Rincian Kategori
| Kategori | Skor Rata-rata | Konsistensi | Tes benar |
|---|---|---|---|
| Anti-AI Tricks | 73 | 98 | 2/3 |
| Combined | 100 | 100 | 1/1 |
| Data parsing and extraction | 55 | 59 | 1/2 |
| Domain specific | 100 | 72 | 0/3 |
| Instructions following | 55 | 100 | 1/2 |
| Puzzle Solving | 17 | 75 | 0/3 |
| Tool Calling | 100 | 100 | 1/1 |