AI BENCHY Compare

Anthropic: Claude Opus 4.7 vs Qwen: Qwen3.7 Plus

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-06-03

Metrik	Claude Opus 4.7 Claude Opus 4.7 medium Rilis: 2026-04-16	Qwen3.7 Plus Qwen3.7 Plus medium Rilis: 2026-06-03

Metrik	Claude Opus 4.7 Claude Opus 4.7 medium Rilis: 2026-04-16	Qwen3.7 Plus Qwen3.7 Plus medium Rilis: 2026-06-03
Skor	8.9	8.4
Peringkat	#7	#16
Keandalan	10.0	9.9
Konsistensi	10.0	9.2
Tes benar
Tingkat lulus per percobaan	85.0%	80.0%
Tes tidak stabil	0	2
Total Run	60	60
Biaya per hasil	3.670	1.324
Total Biaya	$0.624	$0.199
Harga input	$5.000 / 1M	$0.400 / 1M
Harga output	$25.000 / 1M	$1.600 / 1M
Total token input	61,569	38,104
Token output	10,439	2,107
Token penalaran	2,198	112,479
Waktu respons (rata-rata)	4.48s	36.84s
Waktu respons (maks)	23.18s	178.04s
Waktu respons (total)	85.21s	736.86s

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.7	8.3	10.0	75.0%	0		1.85s	894	348	0
Qwen3.7 Plus	10.0	10.0	100.0%	0		8.58s	672	195	5,065

Pemrograman	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.7	10.0	10.0	100.0%	0		14.79s	6,798	6,210	1,114
Qwen3.7 Plus	6.5	5.9	66.7%	1		122.40s	3,637	396	30,301

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.7	10.0	10.0	100.0%	0		21.45s	24,501	2,369	1,084
Qwen3.7 Plus	10.0	10.0	100.0%	0		65.24s	14,934	366	10,132

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.7	10.0	10.0	100.0%	0		2.37s	10,533	324	0
Qwen3.7 Plus	10.0	10.0	100.0%	0		21.75s	7,782	270	6,713

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.7	7.7	10.0	66.7%	0		1.17s	630	51	0
Qwen3.7 Plus	3.6	7.2	22.2%	1		45.35s	771	57	27,073

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.7	10.0	10.0	100.0%	0		2.87s	723	256	0
Qwen3.7 Plus	10.0	10.0	100.0%	0		25.48s	516	123	3,998

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.7	10.0	10.0	100.0%	0		1.57s	939	114	0
Qwen3.7 Plus	10.0	10.0	100.0%	0		16.13s	699	102	5,013

Pemecahan teka-teki	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.7	10.0	10.0	100.0%	0		2.43s	939	370	0
Qwen3.7 Plus	10.0	10.0	100.0%	0		16.38s	696	280	7,312

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.7	10.0	10.0	100.0%	0		4.17s	15,339	373	0
Qwen3.7 Plus	10.0	10.0	100.0%	0		15.02s	8,193	292	1,831

Pengetahuan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.7	3.0	10.0	0.0%	0		2.25s	273	24	0
Qwen3.7 Plus	3.0	10.0	0.0%	0		91.07s	204	26	15,041

Perbandingan Cepat

Ganti Pasangan Perbandingan

Claude Opus 4.7mediumvsGPT-5.5low Claude Opus 4.7mediumvsGemini 3 Flash Previewlow Gemini 3 Flash PreviewlowvsQwen3.7 Plusmedium Gemini 3.5 FlashnonevsQwen3.7 Plusmedium Claude Opus 4.7mediumvsGemini 3.5 Flashlow Gemini 3.5 FlashminimalvsQwen3.7 Plusmedium GPT-5.2 ChatnonevsQwen3.7 Plusmedium GPT-5.5lowvsQwen3.7 Plusmedium Claude Opus 4.7mediumvsGemini 3.5 Flashhigh Gemini 3 Flash PreviewnonevsQwen3.7 Plusmedium DeepSeek V4 FlashhighvsQwen3.7 Plusmedium Gemini 3.1 Flash Lite PreviewlowvsQwen3.7 Plusmedium