AI BENCHY Compare

DeepSeek: DeepSeek V4 Pro vs Poolside: Laguna XS 2.1

Ringkasan

Perbandingan benchmark DeepSeek V4 Pro vs Laguna XS 2.1: DeepSeek V4 Pro unggul dalam skor rata-rata dengan 7.2 vs 7.0. DeepSeek V4 Pro memiliki biaya benchmark lebih rendah di $0.034 vs $0.036. DeepSeek V4 Pro lebih cepat di 6.41s vs 30.08s, dengan tingkat keberhasilan 52.4% vs 44.4%.

Model yang direkomendasikan: DeepSeek V4 Pro - It has the best score here (7.2), while responding about 4.7x faster than Laguna XS 2.1.

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-07-02

Metrik	DeepSeek V4 Pro DeepSeek V4 Pro none Rilis: 2026-04-24	Laguna XS 2.1 Laguna XS 2.1 medium Rilis: 2026-07-02 Tersedia gratis

Metrik	DeepSeek V4 Pro DeepSeek V4 Pro none Rilis: 2026-04-24	Laguna XS 2.1 Laguna XS 2.1 medium Rilis: 2026-07-02 Tersedia gratis
Skor	7.2	7.0
Peringkat	#60	#67
Keandalan	9.9	10.0
Konsistensi	8.8	9.6
Tes benar
Tingkat lulus per percobaan	52.4%	44.4%
Tes tidak stabil	3	1
Total Run	63	63
Biaya per hasil	0.333	0.392
Total Biaya	$0.034	$0.036
Harga input	$0.435 / 1M	$0.060 / 1M
Harga output	$0.870 / 1M	$0.120 / 1M
Total token input	53,558	45,324
Token output	11,424	25,761
Token penalaran	0	268,677
Waktu respons (rata-rata)	6.41s	30.08s
Waktu respons (maks)	30.09s	155.23s
Waktu respons (total)	134.66s	631.77s

Showcase generasi

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#60 DeepSeek V4 Pro

none

SVG tidak valid

Biaya: $0.000
Waktu: 300.0s
Token: 0 tok

#67 Laguna XS 2.1

medium

Biaya: $0.001
Waktu: 30.6s
Token: 4,678 tok

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Pro	3.2	6.1	16.7%	2		4.02s	540	1,168	0
Laguna XS 2.1	4.8	10.0	25.0%	0		41.96s	774	353	73,090

Pemrograman	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Pro	5.6	10.0	33.3%	0		13.38s	7,275	5,500	0
Laguna XS 2.1	5.5	10.0	33.3%	0		70.35s	7,995	23,767	83,258

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Pro	9.5	10.0	100.0%	0		23.74s	27,529	2,235	0
Laguna XS 2.1	9.6	10.0	100.0%	0		13.43s	18,033	507	5,908

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Pro	10.0	10.0	100.0%	0		4.61s	7,568	200	0
Laguna XS 2.1	10.0	10.0	100.0%	0		4.50s	7,734	234	3,129

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Pro	5.3	10.0	33.3%	0		3.72s	666	24	0
Laguna XS 2.1	2.9	7.2	11.1%	1		65.66s	834	17	91,533

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Pro	5.0	10.0	0.0%	0		2.05s	471	126	0
Laguna XS 2.1	5.0	10.0	0.0%	0		4.15s	537	119	1,375

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Pro	6.3	5.8	66.7%	1		4.12s	627	713	0
Laguna XS 2.1	9.8	10.0	100.0%	0		2.57s	753	82	1,844

Pemecahan teka-teki	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Pro	10.0	10.0	100.0%	0		3.61s	594	442	0
Laguna XS 2.1	5.3	10.0	33.3%	0		3.43s	771	357	3,355

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Pro	10.0	10.0	100.0%	0		7.40s	8,105	328	0
Laguna XS 2.1	10.0	10.0	100.0%	0		3.01s	7,638	309	748

Pengetahuan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Pro	3.0	10.0	0.0%	0		5.76s	183	688	0
Laguna XS 2.1	3.0	10.0	0.0%	0		10.88s	255	16	4,437

Perbandingan Cepat

Ganti Pasangan Perbandingan

DeepSeek V4 PrononevsGemma 4 26B A4BmediumTersedia gratis Laguna XS 2.1mediumTersedia gratisvsStep 3.7 Flashhigh Gemini 3.5 FlashnonevsLaguna XS 2.1mediumTersedia gratis Laguna XS 2.1mediumTersedia gratisvsGLM 5.2none DeepSeek V4 PrononevsStep 3.7 Flashhigh DeepSeek V4 PrononevsGLM 5.1medium Laguna XS 2.1mediumTersedia gratisvsQwen3.7 Plusnone Gemini 3 Flash PreviewnonevsLaguna XS 2.1mediumTersedia gratis DeepSeek V4 PrononevsKimi K2.7 Codemedium DeepSeek V4 PrononevsGrok 4.20medium Claude Opus 4.8nonevsLaguna XS 2.1mediumTersedia gratis Laguna XS 2.1mediumTersedia gratisvsQwen3.7 Maxnone