AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs Poolside: Laguna XS 2.1

Ringkasan

Perbandingan benchmark Claude Opus 4.8 vs Laguna XS 2.1: Claude Opus 4.8 unggul dalam skor rata-rata dengan 7.2 vs 7.0. Laguna XS 2.1 memiliki biaya benchmark lebih rendah di $0.036 vs $0.539. Claude Opus 4.8 lebih cepat di 3.48s vs 30.08s, dengan tingkat keberhasilan 61.9% vs 44.4%.

Model yang direkomendasikan: Laguna XS 2.1 - Its score stays close to the best score here (7.0 vs 7.2), while costing about 15.3x less than Claude Opus 4.8.

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-07-02

Metrik	Claude Opus 4.8 Claude Opus 4.8 none Rilis: 2026-05-28	Laguna XS 2.1 Laguna XS 2.1 medium Rilis: 2026-07-02 Tersedia gratis

Metrik	Claude Opus 4.8 Claude Opus 4.8 none Rilis: 2026-05-28	Laguna XS 2.1 Laguna XS 2.1 medium Rilis: 2026-07-02 Tersedia gratis
Skor	7.2	7.0
Peringkat	#59	#67
Keandalan	10.0	10.0
Konsistensi	9.2	9.6
Tes benar
Tingkat lulus per percobaan	61.9%	44.4%
Tes tidak stabil	2	1
Total Run	63	63
Biaya per hasil	4.485	0.392
Total Biaya	$0.539	$0.036
Harga input	$5.000 / 1M	$0.060 / 1M
Harga output	$25.000 / 1M	$0.120 / 1M
Total token input	67,104	45,324
Token output	8,107	25,761
Token penalaran	0	268,677
Waktu respons (rata-rata)	3.48s	30.08s
Waktu respons (maks)	17.73s	155.23s
Waktu respons (total)	73.00s	631.77s

Showcase generasi

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#59 Claude Opus 4.8

none

Biaya: $0.053
Waktu: 22.0s
Token: 2,253 tok

#67 Laguna XS 2.1

medium

Biaya: $0.001
Waktu: 30.6s
Token: 4,678 tok

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.8	6.5	10.0	50.0%	0		3.40s	834	1,472	0
Laguna XS 2.1	4.8	10.0	25.0%	0		41.96s	774	353	73,090

Pemrograman	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.8	5.5	10.0	33.3%	0		3.29s	10,590	1,332	0
Laguna XS 2.1	5.5	10.0	33.3%	0		70.35s	7,995	23,767	83,258

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.8	9.5	10.0	100.0%	0		17.73s	29,658	3,259	0
Laguna XS 2.1	9.6	10.0	100.0%	0		13.43s	18,033	507	5,908

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.8	7.3	5.8	83.3%	1		1.77s	10,503	308	0
Laguna XS 2.1	10.0	10.0	100.0%	0		4.50s	7,734	234	3,129

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.8	5.3	7.2	44.4%	1		1.70s	975	61	0
Laguna XS 2.1	2.9	7.2	11.1%	1		65.66s	834	17	91,533

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.8	10.0	10.0	100.0%	0		3.48s	708	230	0
Laguna XS 2.1	5.0	10.0	0.0%	0		4.15s	537	119	1,375

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.8	9.9	10.0	100.0%	0		1.37s	909	95	0
Laguna XS 2.1	9.8	10.0	100.0%	0		2.57s	753	82	1,844

Pemecahan teka-teki	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.8	7.7	10.0	66.7%	0		2.74s	894	783	0
Laguna XS 2.1	5.3	10.0	33.3%	0		3.43s	771	357	3,355

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.8	10.0	10.0	100.0%	0		5.35s	11,775	355	0
Laguna XS 2.1	10.0	10.0	100.0%	0		3.01s	7,638	309	748

Pengetahuan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.8	3.0	10.0	0.0%	0		3.41s	258	212	0
Laguna XS 2.1	3.0	10.0	0.0%	0		10.88s	255	16	4,437

Perbandingan Cepat

Ganti Pasangan Perbandingan

Laguna XS 2.1mediumTersedia gratisvsStep 3.7 Flashhigh Claude Opus 4.8nonevsGemma 4 26B A4BmediumTersedia gratis Gemini 3.5 FlashnonevsLaguna XS 2.1mediumTersedia gratis Laguna XS 2.1mediumTersedia gratisvsGLM 5.2none Laguna XS 2.1mediumTersedia gratisvsQwen3.7 Plusnone Claude Opus 4.8nonevsGrok 4.20medium DeepSeek V4 PrononevsLaguna XS 2.1mediumTersedia gratis Claude Opus 4.8nonevsStep 3.7 Flashhigh Claude Opus 4.8nonevsGLM 5.1medium Gemini 3 Flash PreviewnonevsLaguna XS 2.1mediumTersedia gratis Claude Opus 4.8nonevsGemini 3 Flash Previewlow Claude Opus 4.8nonevsMiMo-V2.5-Promedium