Anthropic: Claude Opus 4.8 vs Google: Gemini 3.1 Flash Lite Preview

Skor rata-rata hampir imbang di 7.3 vs 7.3. Gemini 3.1 Flash Lite Preview (medium) memiliki biaya benchmark lebih rendah di $0.115 vs $1.166. Gemini 3.1 Flash Lite Preview (medium) lebih cepat di 4.61s vs 4.91s, dengan tingkat keberhasilan 63.6% vs 59.1%.

Model yang direkomendasikanGemini 3.1 Flash Lite Preview (medium)It has the best score here (7.3), while costing about 10.2x less than Claude Opus 4.8.

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-07-17

Metrik	Claude Opus 4.8 Claude Opus 4.8 none Rilis: 2026-05-28	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview medium Rilis: 2026-03-03

Metrik	Claude Opus 4.8 Claude Opus 4.8 none Rilis: 2026-05-28	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview medium Rilis: 2026-03-03
Skor	7.3	7.3
Peringkat	#63	#61
Keandalan	10.0	10.0
Konsistensi	9.2	9.9
Tes benar
Tingkat lulus per percobaan	63.6%	59.1%
Tes tidak stabil	2	0
Total Run	66	66
Biaya per hasil	8.969	0.884
Total Biaya	$1.166	$0.115
Harga input	$5.000 / 1M	$0.250 / 1M
Harga output	$25.000 / 1M	$1.500 / 1M
Total token input	149,206	117,480
Token output	16,797	10,589
Token penalaran	0	46,394
Waktu respons (rata-rata)	4.91s	4.61s
Waktu respons (maks)	35.03s	18.34s
Waktu respons (total)	108.03s	101.39s

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#63 Claude Opus 4.8

none

Biaya: $0.053
Waktu: 22.0s
Token: 2,253 tok

#61 Gemini 3.1 Flash Lite Preview

medium

Biaya: $0.003
Waktu: 5.2s
Token: 1,944 tok

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Kategori:

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.8	6.5	10.0	50.0%	0		3.40s	834	1,472	0
Gemini 3.1 Flash Lite Preview	9.1	10.0	75.0%	0		2.33s	512	570	4,305

Pemrograman	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.8	5.5	10.0	33.3%	0		3.29s	10,590	1,332	0
Gemini 3.1 Flash Lite Preview	5.5	10.0	33.3%	0		4.09s	8,126	461	8,597

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.8	9.8	10.0	100.0%	0		26.38s	111,760	11,949	0
Gemini 3.1 Flash Lite Preview	7.2	9.1	50.0%	0		16.63s	93,097	8,706	16,997

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.8	7.3	5.8	83.3%	1		1.77s	10,503	308	0
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		2.29s	7,362	279	2,952

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.8	5.3	7.2	44.4%	1		1.70s	975	61	0
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		4.21s	639	18	5,325

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.8	10.0	10.0	100.0%	0		3.48s	708	230	0
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		3.16s	488	96	1,488

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.8	9.9	10.0	100.0%	0		1.37s	909	95	0
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.91s	621	72	2,121

Pemecahan teka-teki	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.8	7.7	10.0	66.7%	0		2.74s	894	783	0
Gemini 3.1 Flash Lite Preview	7.7	10.0	66.7%	0		5.30s	566	141	1,896

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.8	10.0	10.0	100.0%	0		5.35s	11,775	355	0
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		3.80s	5,909	234	912

Pengetahuan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.8	3.0	10.0	0.0%	0		3.41s	258	212	0
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		2.68s	160	12	1,801

Perbandingan Cepat

Ganti Pasangan Perbandingan

Claude Opus 4.8nonevsStep 3.7 Flashlow Claude Opus 4.8nonevsKimi K2.6medium Claude Sonnet 4.6nonevsGemini 3.1 Flash Lite Previewmedium Claude Opus 4.8nonevsGemini 3.1 Flash Litemedium Claude Opus 4.8nonevsKAT-Coder-Pro V2.5high Gemini 3.1 Flash Lite PreviewmediumvsKAT-Coder-Pro V2.5low Gemini 3.1 Flash Lite PreviewmediumvsStep 3.7 Flashlow Claude Opus 4.8nonevsQwen3.5 Plus 2026-04-20medium Gemini 3.1 Flash Lite PreviewmediumvsKAT-Coder-Pro V2.5high Claude Opus 4.8nonevsKAT-Coder-Pro V2.5low Claude Opus 4.8nonevsGemini 3 Flash Previewlow Claude Opus 4.8nonevsQwen3.5-122B-A10Bmedium