AI BENCHY Compare

OpenAI: GPT-5.3-Codex vs Qwen: Qwen3.6 Max Preview

Ringkasan

Perbandingan benchmark GPT-5.3-Codex vs Qwen3.6 Max Preview: GPT-5.3-Codex unggul dalam skor rata-rata dengan 8.9 vs 8.9. GPT-5.3-Codex memiliki biaya benchmark lebih rendah di $0.740 vs $0.960. GPT-5.3-Codex lebih cepat di 16.22s vs 59.63s, dengan tingkat keberhasilan 82.5% vs 81.0%.

Model yang direkomendasikan: GPT-5.3-Codex - It has the best score here (8.9), while responding about 3.7x faster than Qwen3.6 Max Preview.

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-06-18

Metrik	GPT-5.3-Codex GPT-5.3-Codex medium Rilis: 2026-02-05	Qwen3.6 Max Preview Qwen3.6 Max Preview medium Rilis: 2026-04-20

Metrik	GPT-5.3-Codex GPT-5.3-Codex medium Rilis: 2026-02-05	Qwen3.6 Max Preview Qwen3.6 Max Preview medium Rilis: 2026-04-20
Skor	8.9	8.9
Peringkat	#10	#11
Keandalan	10.0	10.0
Konsistensi	8.5	9.3
Tes benar
Tingkat lulus per percobaan	82.5%	81.0%
Tes tidak stabil	4	2
Total Run	63	63
Biaya per hasil	4.932	7.024
Total Biaya	$0.740	$0.960
Harga input	$1.750 / 1M	$1.040 / 1M
Harga output	$14.000 / 1M	$6.240 / 1M
Total token input	34,299	42,362
Token output	2,357	2,273
Token penalaran	46,189	144,367
Waktu respons (rata-rata)	16.22s	59.63s
Waktu respons (maks)	100.93s	238.07s
Waktu respons (total)	340.67s	1252.17s

Showcase generasi

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#10 GPT-5.3-Codex

medium

Biaya: $0.049
Waktu: 54.9s
Token: 3,580 tok

#11 Qwen3.6 Max Preview

medium

Biaya: $0.024
Waktu: 76.5s
Token: 3,861 tok

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
GPT-5.3-Codex	8.7	7.9	91.7%	1		4.16s	606	240	1,722
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		22.13s	672	228	10,075

Pemrograman	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
GPT-5.3-Codex	10.0	10.0	100.0%	0		19.50s	7,302	535	10,890
Qwen3.6 Max Preview	8.8	7.8	88.9%	1		146.48s	7,895	427	52,957

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
GPT-5.3-Codex	10.0	10.0	100.0%	0		19.56s	11,019	364	2,731
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		121.49s	14,934	390	14,575

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
GPT-5.3-Codex	10.0	10.0	100.0%	0		3.07s	7,140	234	728
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		41.15s	7,782	270	10,106

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
GPT-5.3-Codex	5.9	7.2	55.6%	1		64.31s	813	64	25,308
Qwen3.6 Max Preview	2.9	7.2	11.1%	1		95.91s	771	60	30,371

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
GPT-5.3-Codex	4.6	10.0	0.0%	0		4.87s	477	187	331
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		32.24s	516	129	3,510

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
GPT-5.3-Codex	10.0	10.0	100.0%	0		3.04s	660	93	693
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		24.31s	699	103	5,848

Pemecahan teka-teki	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
GPT-5.3-Codex	9.0	7.9	88.9%	1		5.05s	642	356	1,593
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		24.32s	696	329	7,693

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
GPT-5.3-Codex	10.0	10.0	100.0%	0		6.37s	5,445	254	492
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		18.32s	8,193	309	1,571

Pengetahuan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
GPT-5.3-Codex	2.8	1.6	33.3%	1		14.43s	195	30	1,701
Qwen3.6 Max Preview	3.0	10.0	0.0%	0		60.56s	204	28	7,661

Perbandingan Cepat

Ganti Pasangan Perbandingan

Gemini 3.5 FlashlowvsGPT-5.3-Codexmedium Gemini 3.5 FlashlowvsQwen3.6 Max Previewmedium GPT-5.2 ChatnonevsQwen3.6 Max Previewmedium GPT-5.5lowvsQwen3.6 Max Previewmedium DeepSeek V4 FlashhighvsQwen3.6 Max Previewmedium DeepSeek V4 FlashhighvsGPT-5.3-Codexmedium Gemini 3.5 FlashhighvsGPT-5.3-Codexmedium Gemini 3.5 FlashhighvsQwen3.6 Max Previewmedium Qwen3.6 Max PreviewmediumvsStep 3.7 Flashlow GPT-5.3-CodexmediumvsStep 3.7 Flashlow DeepSeek V4 ProhighvsQwen3.6 Max Previewmedium DeepSeek V4 ProhighvsGPT-5.3-Codexmedium