AI BENCHY Compare

OpenAI: GPT-5.4 Nano vs Qwen: Qwen3.5-35B-A3B

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-03-17

Metrik	GPT-5.4 Nano GPT-5.4 Nano medium Rilis: 2026-03-17	Qwen3.5-35B-A3B Qwen3.5-35B-A3B none Rilis: 2026-02-24

Metrik	GPT-5.4 Nano GPT-5.4 Nano medium Rilis: 2026-03-17	Qwen3.5-35B-A3B Qwen3.5-35B-A3B none Rilis: 2026-02-24
Peringkat	#28	#49
Skor	7.4	5.9
Konsistensi	9.0	8.6
Biaya per hasil	0.769	0.237
Total Biaya	$0.077	$0.015
Tes benar
Tingkat lulus per percobaan	66.7%	47.1%
Tes tidak stabil	2	3
Total Run	51	51
Token output	2,474	3,761
Token penalaran	54,516	0
Waktu respons (rata-rata)	11.08s	3.89s
Waktu respons (maks)	94.06s	47.43s
Waktu respons (total)	188.39s	66.07s

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
GPT-5.4 Nano	8.3	10.0	75.0%	0		4.52s	683	2,254
Qwen3.5-35B-A3B	3.4	7.9	16.7%	1		1.43s	574	0

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
GPT-5.4 Nano	9.8	10.0	100.0%	0		24.13s	349	5,719
Qwen3.5-35B-A3B	3.0	10.0	0.0%	0		47.43s	1,833	0

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
GPT-5.4 Nano	10.0	10.0	100.0%	0		2.54s	234	516
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		1.16s	243	0

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
GPT-5.4 Nano	5.9	7.2	55.6%	1		38.18s	60	43,325
Qwen3.5-35B-A3B	7.7	10.0	66.7%	0		485ms	15	0

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
GPT-5.4 Nano	4.5	10.0	0.0%	0		4.15s	179	443
Qwen3.5-35B-A3B	6.5	3.4	66.7%	1		1.19s	114	0

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
GPT-5.4 Nano	9.8	10.0	100.0%	0		1.88s	95	521
Qwen3.5-35B-A3B	6.3	10.0	50.0%	0		809ms	63	0

Puzzle Solving	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
GPT-5.4 Nano	4.0	7.1	22.2%	1		3.65s	640	1,356
Qwen3.5-35B-A3B	3.9	7.4	22.2%	1		1.34s	655	0

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
GPT-5.4 Nano	10.0	10.0	100.0%	0		7.71s	234	382
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		2.30s	264	0

Perbandingan Cepat

Ganti Pasangan Perbandingan

MiniMax M2.5mediumTersedia gratisvsQwen3.5-35B-A3Bnone gpt-oss-120bmediumTersedia gratisvsQwen3.5-35B-A3Bnone Claude Sonnet 4.6nonevsGPT-5.4 Nanomedium Mistral Small 4mediumvsQwen3.5-35B-A3Bnone Qwen3.5-35B-A3BnonevsGrok 4.20 Multi-Agent Betamedium GPT-5 NanomediumvsQwen3.5-35B-A3Bnone Gemini 3.1 Flash Lite PreviewnonevsGPT-5.4 Nanomedium Mercury 2mediumvsQwen3.5-35B-A3Bnone Gemini 3 Flash PreviewnonevsGPT-5.4 Nanomedium Gemini 3.1 Flash Lite PreviewlowvsGPT-5.4 Nanomedium GPT-5.4 NanomediumvsQwen3.5 Plus 2026-02-15none GPT-5.4 NanomediumvsGLM 5none