AI BENCHY Compare

Model yang Dibandingkan

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-03-12

Metrik	Claude Opus 4.6 Claude Opus 4.6 medium Rilis: 2026-02-05	Claude Sonnet 4.6 Claude Sonnet 4.6 medium Rilis: 2026-02-17	GPT-5.3-Codex GPT-5.3-Codex medium Rilis: 2026-02-05	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Rilis: 2026-02-19

Metrik	Claude Opus 4.6 Claude Opus 4.6 medium Rilis: 2026-02-05	Claude Sonnet 4.6 Claude Sonnet 4.6 medium Rilis: 2026-02-17	GPT-5.3-Codex GPT-5.3-Codex medium Rilis: 2026-02-05	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Rilis: 2026-02-19
Peringkat	#28	#12	#4	#2
Skor Rata-rata	6.6	7.7	8.4	9.4
Konsistensi	9.0	9.5	9.1	10.0
Biaya per hasil	13.118	8.525	4.485	3.417
Total Biaya	$1.312	$1.023	$0.539	$0.513
Tes benar
Tingkat lulus per percobaan	66.7%	77.1%	83.3%	93.8%
Tes tidak stabil	2	1	2	0
Total Run	48	48	48	48
Token output	26,254	35,159	1,764	1,521
Token penalaran	17,363	24,687	33,348	35,656
Waktu respons (rata-rata)	22.86s	11.23s	16.59s	16.60s
Waktu respons (maks)	83.40s	46.35s	100.93s	40.61s
Waktu respons (total)	205.71s	89.84s	265.39s	149.36s

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor Rata-rata vs Waktu respons (rata-rata)

Total token output

Skor Rata-rata vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Claude Opus 4.6	4.0	4.4	55.6%	2		11.88s	897	1,000
Claude Sonnet 4.6	7.0	10.0	66.7%	0		4.95s	1,031	1,093
GPT-5.3-Codex	10.0	10.0	100.0%	0		4.69s	216	1,421
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		9.52s	106	2,533

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Claude Opus 4.6	10.0	10.0	100.0%	0		76.66s	8,178	5,194
Claude Sonnet 4.6	10.0	10.0	100.0%	0		46.35s	5,871	3,962
GPT-5.3-Codex	10.0	10.0	100.0%	0		19.56s	364	2,731
Gemini 3.1 Pro Preview	9.0	10.0	100.0%	0		40.61s	432	9,281

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Claude Opus 4.6	9.9	10.0	100.0%	0		7.37s	691	757
Claude Sonnet 4.6	9.9	10.0	100.0%	0		13.90s	649	742
GPT-5.3-Codex	9.9	10.0	100.0%	0		3.07s	234	728
Gemini 3.1 Pro Preview	9.9	10.0	100.0%	0		7.72s	279	3,904

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Claude Opus 4.6	10.0	10.0	0.0%	0		83.40s	14,642	8,687
Claude Sonnet 4.6	10.0	7.2	11.1%	1		0ms	25,790	16,919
GPT-5.3-Codex	4.0	7.2	55.6%	1		64.31s	64	25,308
Gemini 3.1 Pro Preview	7.0	10.0	66.7%	0		32.73s	18	12,424

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Claude Opus 4.6	10.0	10.0	100.0%	0		5.04s	188	292
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.94s	256	433
GPT-5.3-Codex	4.0	10.0	0.0%	0		4.87s	187	331
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		11.77s	108	1,179

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Claude Opus 4.6	10.0	10.0	100.0%	0		2.43s	266	467
Claude Sonnet 4.6	10.0	10.0	100.0%	0		2.61s	318	552
GPT-5.3-Codex	10.0	10.0	100.0%	0		3.04s	93	693
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		9.56s	72	2,236

Puzzle Solving	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Claude Opus 4.6	7.0	10.0	66.7%	0		4.60s	531	637
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.80s	589	635
GPT-5.3-Codex	9.3	7.9	88.9%	1		5.12s	352	1,644
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.15s	232	3,117

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Claude Opus 4.6	10.0	10.0	100.0%	0		9.73s	861	329
Claude Sonnet 4.6	10.0	10.0	100.0%	0		7.48s	655	351
GPT-5.3-Codex	10.0	10.0	100.0%	0		6.37s	254	492
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		23.15s	274	982

Perbandingan Cepat

Ganti Pasangan Perbandingan

Gemini 3 Flash PreviewlowvsGPT-5.3-Codexmedium Claude Sonnet 4.6mediumvsGPT-5.2 Chatnone Claude Opus 4.6mediumvsQwen3.5 Plus 2026-02-15none Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewlow Claude Sonnet 4.6mediumvsGPT-5.3 Chatnone Claude Sonnet 4.6mediumvsGemini 3 Flash Previewlow Claude Opus 4.6mediumvsGemini 3.1 Flash Lite Previewnone Claude Sonnet 4.6mediumvsGemini 3 Flash Previewnone Claude Opus 4.6mediumvsGLM 5none Claude Opus 4.6mediumvsGemini 3 Flash Previewnone Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewnone Claude Opus 4.6mediumvsGPT-5.3 Chatnone