AI BENCHY Compare

Inception: Mercury 2 vs Qwen: Qwen3.6 35B A3B

Ringkasan

Perbandingan benchmark Mercury 2 vs Qwen3.6 35B A3B: Qwen3.6 35B A3B unggul dalam skor rata-rata dengan 5.2 vs 4.6. Mercury 2 memiliki biaya benchmark lebih rendah di $0.011 vs $0.031. Mercury 2 lebih cepat di 653ms vs 3.73s, dengan tingkat keberhasilan 23.8% vs 30.2%.

Model yang direkomendasikan: Mercury 2 - Its score stays close to the best score here (4.6 vs 5.2), while costing about 2.9x less than Qwen3.6 35B A3B.

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-06-18

Metrik	Mercury 2 Mercury 2 none Rilis: 2026-02-24	Qwen3.6 35B A3B Qwen3.6 35B A3B none Rilis: 2026-04-20

Metrik	Mercury 2 Mercury 2 none Rilis: 2026-02-24	Qwen3.6 35B A3B Qwen3.6 35B A3B none Rilis: 2026-04-20
Skor	4.6	5.2
Peringkat	#151	#128
Keandalan	10.0	10.0
Konsistensi	9.2	8.0
Tes benar
Tingkat lulus per percobaan	23.8%	30.2%
Tes tidak stabil	2	5
Total Run	63	63
Biaya per hasil	0.259	0.754
Total Biaya	$0.011	$0.031
Harga input	$0.250 / 1M	$0.140 / 1M
Harga output	$0.750 / 1M	$1.000 / 1M
Total token input	28,113	19,329
Token output	4,439	27,755
Token penalaran	0	0
Waktu respons (rata-rata)	653ms	3.73s
Waktu respons (maks)	1.43s	22.52s
Waktu respons (total)	13.72s	70.86s

Showcase generasi

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#151 Mercury 2

none

Biaya: $0.002
Waktu: 1.8s
Token: 1,514 tok

#128 Qwen3.6 35B A3B

none

Biaya: $0.008
Waktu: 30.1s
Token: 6,317 tok

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Mercury 2	3.0	10.0	0.0%	0		483ms	631	286	0
Qwen3.6 35B A3B	3.6	7.6	16.7%	1		2.10s	696	1,571	0

Pemrograman	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Mercury 2	3.4	9.6	0.0%	0		1.03s	7,229	3,088	0
Qwen3.6 35B A3B	5.5	10.0	33.3%	0		8.77s	7,911	11,161	0

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Mercury 2	3.0	10.0	0.0%	0		606ms	4,821	131	0
Qwen3.6 35B A3B	3.0	10.0	0.0%	0		0ms	0	0	0

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Mercury 2	7.3	5.9	83.3%	1		667ms	6,362	180	0
Qwen3.6 35B A3B	10.0	10.0	100.0%	0		1.46s	7,788	248	0

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Mercury 2	5.3	7.2	44.4%	1		534ms	784	46	0
Qwen3.6 35B A3B	3.5	4.4	33.3%	2		7.45s	781	11,381	0

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Mercury 2	4.8	10.0	0.0%	0		628ms	495	159	0
Qwen3.6 35B A3B	4.4	3.0	33.3%	1		3.51s	520	1,545	0

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Mercury 2	6.5	10.0	50.0%	0		551ms	691	82	0
Qwen3.6 35B A3B	6.2	5.8	66.7%	1		1.86s	709	1,264	0

Pemecahan teka-teki	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Mercury 2	3.1	10.0	0.0%	0		535ms	694	251	0
Qwen3.6 35B A3B	3.2	9.9	0.0%	0		1.07s	714	573	0

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Mercury 2	10.0	10.0	100.0%	0		1.27s	6,193	197	0
Qwen3.6 35B A3B	3.0	10.0	0.0%	0		0ms	0	0	0

Pengetahuan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Mercury 2	3.0	10.0	0.0%	0		548ms	213	19	0
Qwen3.6 35B A3B	3.0	10.0	0.0%	0		414ms	210	12	0

Perbandingan Cepat

Ganti Pasangan Perbandingan

MiniMax M2.7mediumvsQwen3.6 35B A3Bnone Mercury 2nonevsQwen3 Coder Nextmedium Mistral Small 4mediumvsQwen3.6 35B A3Bnone Mercury 2nonevsMiniMax M2.5medium CobuddymediumvsQwen3.6 35B A3Bnone CobuddymediumvsMercury 2none Mercury 2nonevsGLM 4.7 Flashmedium MiniMax M2.5mediumvsQwen3.6 35B A3Bnone Mercury 2nonevsMistral Small 4medium Mercury 2nonevsMiniMax M2.7medium North Mini CodemediumTersedia gratisvsQwen3.6 35B A3Bnone Mercury 2nonevsQwen3.5-9Bmedium