AI BENCHY Compare

Anthropic: Claude Opus 4.7 vs Qwen: Qwen3.6 35B A3B

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-04-27

Metrik	Claude Opus 4.7 Claude Opus 4.7 none Rilis: 2026-04-16	Qwen3.6 35B A3B Qwen3.6 35B A3B medium Rilis: 2026-04-20

Metrik	Claude Opus 4.7 Claude Opus 4.7 none Rilis: 2026-04-16	Qwen3.6 35B A3B Qwen3.6 35B A3B medium Rilis: 2026-04-20
Skor	9.2	8.8
Peringkat	#4	#9
Keandalan	T/A	10.0
Konsistensi	10.0	9.5
Tes benar
Tingkat lulus per percobaan	88.9%	83.3%
Tes tidak stabil	0	1
Total Run	54	54
Biaya per hasil	3.155	0.800
Total Biaya	$0.505	$0.104
Harga input	$5.000 / 1M	$0.162 / 1M
Harga output	$25.000 / 1M	$0.966 / 1M
Token output	6,326	14,256
Token penalaran	0	98,005
Waktu respons (rata-rata)	3.13s	11.98s
Waktu respons (maks)	18.27s	45.02s
Waktu respons (total)	56.33s	191.76s

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Claude Opus 4.7	8.3	10.0	75.0%	0		2.12s	522	0
Qwen3.6 35B A3B	10.0	10.0	100.0%	0		6.02s	1,154	12,385

Pemrograman	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Claude Opus 4.7	10.0	10.0	100.0%	0		2.84s	494	0
Qwen3.6 35B A3B	10.0	10.0	100.0%	0		32.58s	3,294	15,116

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Claude Opus 4.7	9.5	10.0	100.0%	0		18.27s	3,504	0
Qwen3.6 35B A3B	0.0	0.0	0.0%	0		0ms	0	0

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Claude Opus 4.7	10.0	10.0	100.0%	0		2.15s	324	0
Qwen3.6 35B A3B	10.0	10.0	100.0%	0		12.99s	2,591	9,968

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Claude Opus 4.7	7.7	10.0	66.7%	0		1.19s	78	0
Qwen3.6 35B A3B	5.3	7.2	44.4%	1		22.50s	6,193	39,116

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Claude Opus 4.7	10.0	10.0	100.0%	0		3.47s	257	0
Qwen3.6 35B A3B	4.4	9.9	0.0%	0		8.66s	129	4,569

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Claude Opus 4.7	10.0	10.0	100.0%	0		1.46s	114	0
Qwen3.6 35B A3B	10.0	10.0	100.0%	0		7.50s	219	7,404

Pemecahan teka-teki	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Claude Opus 4.7	10.0	10.0	100.0%	0		2.58s	661	0
Qwen3.6 35B A3B	10.0	10.0	100.0%	0		5.98s	676	9,447

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Claude Opus 4.7	10.0	10.0	100.0%	0		4.74s	372	0
Qwen3.6 35B A3B	0.0	0.0	0.0%	0		0ms	0	0

Perbandingan Cepat

Ganti Pasangan Perbandingan

Gemini 3 Flash PreviewlowvsQwen3.6 35B A3Bmedium Claude Opus 4.7nonevsGPT-5.5low Claude Opus 4.7nonevsGPT-5.5medium GPT-5.5lowvsQwen3.6 35B A3Bmedium Qwen3.6 35B A3BmediumvsHY3 PreviewhighTersedia gratis Claude Opus 4.7nonevsGemini 3 Flash Previewlow Claude Opus 4.7nonevsQwen3.6 Max Previewmedium Claude Opus 4.7nonevsGemini 3.1 Pro Previewmedium Claude Opus 4.7nonevsSeed-2.0-Litemedium Claude Opus 4.7nonevsGPT-5.3-Codexmedium Qwen3.6 35B A3BmediumvsHY3 PreviewlowTersedia gratis Gemini 3 Flash PreviewnonevsQwen3.6 35B A3Bmedium