AI BENCHY Compare

Qwen: Qwen3.5-122B-A10B vs Qwen: Qwen3.5-27B

Ringkasan

Perbandingan benchmark Qwen3.5-122B-A10B vs Qwen3.5-27B: Qwen3.5-27B unggul dalam skor rata-rata dengan 7.9 vs 7.7. Qwen3.5-27B memiliki biaya benchmark lebih rendah di $0.536 vs $0.588. Qwen3.5-122B-A10B lebih cepat di 42.49s vs 68.39s, dengan tingkat keberhasilan 73.0% vs 73.0%.

Model yang direkomendasikan: Qwen3.5-122B-A10B - Its score stays close to the best score here (7.7 vs 7.9), while responding about 1.6x faster than Qwen3.5-27B.

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-06-18

Metrik	Qwen3.5-122B-A10B Qwen3.5-122B-A10B medium Rilis: 2026-02-24	Qwen3.5-27B Qwen3.5-27B medium Rilis: 2026-02-24

Metrik	Qwen3.5-122B-A10B Qwen3.5-122B-A10B medium Rilis: 2026-02-24	Qwen3.5-27B Qwen3.5-27B medium Rilis: 2026-02-24
Skor	7.7	7.9
Peringkat	#36	#29
Keandalan	10.0	10.0
Konsistensi	8.8	8.5
Tes benar
Tingkat lulus per percobaan	73.0%	73.0%
Tes tidak stabil	3	4
Total Run	63	63
Biaya per hasil	5.235	4.901
Total Biaya	$0.588	$0.536
Harga input	$0.260 / 1M	$0.195 / 1M
Harga output	$2.080 / 1M	$1.560 / 1M
Total token input	41,832	42,164
Token output	26,187	8,534
Token penalaran	251,028	329,289
Waktu respons (rata-rata)	42.49s	68.39s
Waktu respons (maks)	168.16s	234.36s
Waktu respons (total)	892.30s	1436.24s

Showcase generasi

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#36 Qwen3.5-122B-A10B

medium

Biaya: $0.019
Waktu: 48.7s
Token: 6,034 tok

#29 Qwen3.5-27B

medium

Biaya: $0.008
Waktu: 62.0s
Token: 3,099 tok

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		9.75s	672	269	16,835
Qwen3.5-27B	8.7	7.9	91.7%	1		19.75s	672	569	31,505

Pemrograman	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Qwen3.5-122B-A10B	6.0	7.2	55.6%	1		114.48s	7,630	8,057	82,578
Qwen3.5-27B	6.2	7.1	55.6%	1		160.69s	7,895	6,381	89,388

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		107.79s	14,947	483	11,337
Qwen3.5-27B	10.0	10.0	100.0%	0		163.96s	14,946	483	9,991

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		23.41s	7,782	270	16,558
Qwen3.5-27B	10.0	10.0	100.0%	0		30.26s	7,782	270	16,150

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Qwen3.5-122B-A10B	2.9	7.2	11.1%	1		63.40s	771	15,537	64,889
Qwen3.5-27B	5.3	10.0	33.3%	0		79.53s	553	43	52,368

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Qwen3.5-122B-A10B	3.4	2.2	33.3%	1		34.11s	344	66	7,592
Qwen3.5-27B	6.1	3.1	66.7%	1		101.41s	524	70	23,147

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		9.88s	593	77	7,372
Qwen3.5-27B	10.0	10.0	100.0%	0		19.66s	699	97	11,638

Pemecahan teka-teki	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		17.89s	696	284	27,575
Qwen3.5-27B	8.2	7.7	77.8%	1		59.60s	696	242	70,096

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		4.60s	8,193	322	1,226
Qwen3.5-27B	10.0	10.0	100.0%	0		7.45s	8,193	348	1,323

Pengetahuan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Qwen3.5-122B-A10B	3.0	10.0	0.0%	0		52.87s	204	822	15,066
Qwen3.5-27B	3.0	10.0	0.0%	0		85.11s	204	31	23,683

Perbandingan Cepat

Ganti Pasangan Perbandingan

Qwen3.5-122B-A10BmediumvsStep 3.7 Flashlow DeepSeek V4 ProhighvsQwen3.5-122B-A10Bmedium Qwen3.5-27BmediumvsStep 3.7 Flashlow GPT-5.3 ChatnonevsQwen3.5-122B-A10Bmedium DeepSeek V4 ProhighvsQwen3.5-27Bmedium Gemini 3 Flash PreviewlowvsQwen3.5-122B-A10Bmedium DeepSeek V4 FlashhighvsQwen3.5-27Bmedium GPT-5.3 ChatnonevsQwen3.5-27Bmedium Claude Sonnet 4.6nonevsQwen3.5-122B-A10Bmedium Gemini 3 Flash PreviewlowvsQwen3.5-27Bmedium Claude Opus 4.8nonevsQwen3.5-122B-A10Bmedium DeepSeek V4 FlashhighvsQwen3.5-122B-A10Bmedium