Navigasi
AI BENCHY
Your ad here

AI BENCHY Compare

Model yang Dibandingkan

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-03-12

Metrik Claude Opus 4.6 Claude Opus 4.6 medium Rilis: 2026-02-05 Claude Sonnet 4.6 Claude Sonnet 4.6 medium Rilis: 2026-02-17 GPT-5.3-Codex GPT-5.3-Codex medium Rilis: 2026-02-05 Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Rilis: 2026-02-19
Peringkat #28 #12 #4 #2
Skor Rata-rata 6.6 7.7 8.4 9.4
Konsistensi 9.0 9.5 9.1 10.0
Biaya per hasil 13.118 8.525 4.485 3.417
Total Biaya $1.312 $1.023 $0.539 $0.513
Tes benar
Tingkat lulus per percobaan 66.7% 77.1% 83.3% 93.8%
Tes tidak stabil 2 1 2 0
Total Run 48 48 48 48
Token output 26,254 35,159 1,764 1,521
Token penalaran 17,363 24,687 33,348 35,656
Waktu respons (rata-rata) 22.86s 11.23s 16.59s 16.60s
Waktu respons (maks) 83.40s 46.35s 100.93s 40.61s
Waktu respons (total) 205.71s 89.84s 265.39s 149.36s

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor Rata-rata vs Waktu respons (rata-rata)

Total token output

Skor Rata-rata vs Total token output

Rincian Kategori

Trik anti-AI Skor Konsistensi Tingkat lulus per percobaan Tes tidak stabil Tes benar Waktu respons (rata-rata) Token output Token penalaran
Claude Opus 4.6 4.0 4.4 55.6% 2 11.88s 897 1,000
Claude Sonnet 4.6 7.0 10.0 66.7% 0 4.95s 1,031 1,093
GPT-5.3-Codex 10.0 10.0 100.0% 0 4.69s 216 1,421
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 9.52s 106 2,533
Gabungan Skor Konsistensi Tingkat lulus per percobaan Tes tidak stabil Tes benar Waktu respons (rata-rata) Token output Token penalaran
Claude Opus 4.6 10.0 10.0 100.0% 0 76.66s 8,178 5,194
Claude Sonnet 4.6 10.0 10.0 100.0% 0 46.35s 5,871 3,962
GPT-5.3-Codex 10.0 10.0 100.0% 0 19.56s 364 2,731
Gemini 3.1 Pro Preview 9.0 10.0 100.0% 0 40.61s 432 9,281
Parsing dan ekstraksi data Skor Konsistensi Tingkat lulus per percobaan Tes tidak stabil Tes benar Waktu respons (rata-rata) Token output Token penalaran
Claude Opus 4.6 9.9 10.0 100.0% 0 7.37s 691 757
Claude Sonnet 4.6 9.9 10.0 100.0% 0 13.90s 649 742
GPT-5.3-Codex 9.9 10.0 100.0% 0 3.07s 234 728
Gemini 3.1 Pro Preview 9.9 10.0 100.0% 0 7.72s 279 3,904
Spesifik domain Skor Konsistensi Tingkat lulus per percobaan Tes tidak stabil Tes benar Waktu respons (rata-rata) Token output Token penalaran
Claude Opus 4.6 10.0 10.0 0.0% 0 83.40s 14,642 8,687
Claude Sonnet 4.6 10.0 7.2 11.1% 1 0ms 25,790 16,919
GPT-5.3-Codex 4.0 7.2 55.6% 1 64.31s 64 25,308
Gemini 3.1 Pro Preview 7.0 10.0 66.7% 0 32.73s 18 12,424
Kecerdasan umum Skor Konsistensi Tingkat lulus per percobaan Tes tidak stabil Tes benar Waktu respons (rata-rata) Token output Token penalaran
Claude Opus 4.6 10.0 10.0 100.0% 0 5.04s 188 292
Claude Sonnet 4.6 10.0 10.0 100.0% 0 4.94s 256 433
GPT-5.3-Codex 4.0 10.0 0.0% 0 4.87s 187 331
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 11.77s 108 1,179
Kepatuhan instruksi Skor Konsistensi Tingkat lulus per percobaan Tes tidak stabil Tes benar Waktu respons (rata-rata) Token output Token penalaran
Claude Opus 4.6 10.0 10.0 100.0% 0 2.43s 266 467
Claude Sonnet 4.6 10.0 10.0 100.0% 0 2.61s 318 552
GPT-5.3-Codex 10.0 10.0 100.0% 0 3.04s 93 693
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 9.56s 72 2,236
Puzzle Solving Skor Konsistensi Tingkat lulus per percobaan Tes tidak stabil Tes benar Waktu respons (rata-rata) Token output Token penalaran
Claude Opus 4.6 7.0 10.0 66.7% 0 4.60s 531 637
Claude Sonnet 4.6 10.0 10.0 100.0% 0 4.80s 589 635
GPT-5.3-Codex 9.3 7.9 88.9% 1 5.12s 352 1,644
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 7.15s 232 3,117
Pemanggilan alat Skor Konsistensi Tingkat lulus per percobaan Tes tidak stabil Tes benar Waktu respons (rata-rata) Token output Token penalaran
Claude Opus 4.6 10.0 10.0 100.0% 0 9.73s 861 329
Claude Sonnet 4.6 10.0 10.0 100.0% 0 7.48s 655 351
GPT-5.3-Codex 10.0 10.0 100.0% 0 6.37s 254 492
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 23.15s 274 982

Perbandingan Cepat

Ganti Pasangan Perbandingan