Navigasi
AI BENCHY
Bandingkan Grafik Metodologi
❤️ Made by XCS
Your ad here

AI BENCHY Compare

Anthropic: Claude Opus 4.6 vs Google: Gemini 3.1 Flash Lite Preview

Bandingkan:

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-03-06

Metrik Anthropic: Claude Opus 4.6 medium Rilis: 2026-02-05 Google: Gemini 3.1 Flash Lite Preview low Rilis: 2026-03-03
Skor Rata-rata 6.4 7.6
Peringkat #31 #13
Tes benar
Konsistensi 8.9 10.0
Biaya per hasil 14.411 0.170
Total Biaya $1.297 $0.019
Tingkat lulus per percobaan 64.4% 73.3%
Tes tidak stabil 2 0
common.totalRuns 45 (15 x 3) 45 (15 x 3)
Token output 26,066 1,542
Token penalaran 17,071 6,888
Waktu respons (rata-rata) 25.08s 3.49s
Waktu respons (maks) 83.40s 11.91s
Waktu respons (total) 200.67s 52.29s

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor Rata-rata vs Waktu respons (rata-rata)

Rincian Kategori

Trik anti-AI Skor Konsistensi Tingkat lulus per percobaan Tes tidak stabil Tes benar Waktu respons (rata-rata) Token output Token penalaran
Anthropic: Claude Opus 4.6 4.0 4.4 55.6% 2 11.88s 897 1,000
Google: Gemini 3.1 Flash Lite Preview 7.0 10.0 66.7% 0 2.18s 456 1,224
Gabungan Skor Konsistensi Tingkat lulus per percobaan Tes tidak stabil Tes benar Waktu respons (rata-rata) Token output Token penalaran
Anthropic: Claude Opus 4.6 10.0 10.0 100.0% 0 76.66s 8,178 5,194
Google: Gemini 3.1 Flash Lite Preview 10.0 10.0 0.0% 0 11.91s 225 762
Parsing dan ekstraksi data Skor Konsistensi Tingkat lulus per percobaan Tes tidak stabil Tes benar Waktu respons (rata-rata) Token output Token penalaran
Anthropic: Claude Opus 4.6 9.9 10.0 100.0% 0 7.37s 691 757
Google: Gemini 3.1 Flash Lite Preview 9.9 10.0 100.0% 0 3.00s 291 696
Spesifik domain Skor Konsistensi Tingkat lulus per percobaan Tes tidak stabil Tes benar Waktu respons (rata-rata) Token output Token penalaran
Anthropic: Claude Opus 4.6 10.0 10.0 0.0% 0 83.40s 14,642 8,687
Google: Gemini 3.1 Flash Lite Preview 4.0 10.0 33.3% 0 2.36s 18 1,212
Kepatuhan instruksi Skor Konsistensi Tingkat lulus per percobaan Tes tidak stabil Tes benar Waktu respons (rata-rata) Token output Token penalaran
Anthropic: Claude Opus 4.6 10.0 10.0 100.0% 0 2.43s 266 467
Google: Gemini 3.1 Flash Lite Preview 10.0 10.0 100.0% 0 1.49s 72 753
Puzzle Solving Skor Konsistensi Tingkat lulus per percobaan Tes tidak stabil Tes benar Waktu respons (rata-rata) Token output Token penalaran
Anthropic: Claude Opus 4.6 7.0 10.0 66.7% 0 4.60s 531 637
Google: Gemini 3.1 Flash Lite Preview 10.0 10.0 100.0% 0 2.76s 243 1,248
Pemanggilan alat Skor Konsistensi Tingkat lulus per percobaan Tes tidak stabil Tes benar Waktu respons (rata-rata) Token output Token penalaran
Anthropic: Claude Opus 4.6 10.0 10.0 100.0% 0 9.73s 861 329
Google: Gemini 3.1 Flash Lite Preview 10.0 10.0 100.0% 0 9.54s 237 993

Perbandingan Cepat

Ganti Pasangan Perbandingan