Navigasi
AI BENCHY
Your ad here

AI BENCHY Compare

Model yang Dibandingkan

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-04-24

Metrik DeepSeek V4 Flash DeepSeek V4 Flash high Rilis: 2026-04-24 DeepSeek V4 Pro DeepSeek V4 Pro high Rilis: 2026-04-24 Kimi K2.6 Kimi K2.6 medium Rilis: 2026-04-20 GLM 5 GLM 5 medium Rilis: 2026-02-12
Skor 7.8 7.4 7.7 8.4
Peringkat #35 #50 #40 #14
Konsistensi 7.8 10.0 8.3 8.2
Tes benar
Tingkat lulus per percobaan 79.6% 61.1% 74.1% 85.2%
Tes tidak stabil 5 0 4 4
Total Run 52 24 54 54
Biaya per hasil 0.189 1.385 6.563 1.188
Total Biaya $0.021 $0.153 $0.722 $0.155
Harga input $0.140 / 1M $1.740 / 1M $0.745 / 1M $0.600 / 1M
Harga output $0.280 / 1M $3.480 / 1M $4.655 / 1M $2.080 / 1M
Token output 1,757 584 80,759 20,163
Token penalaran 55,907 37,708 179,814 58,337
Waktu respons (rata-rata) 47.47s 78.45s 45.20s 23.34s
Waktu respons (maks) 255.28s 351.99s 215.85s 79.09s
Waktu respons (total) 854.45s 1255.22s 768.37s 233.40s

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI Skor Konsistensi Tingkat lulus per percobaan Tes tidak stabil Tes benar Waktu respons (rata-rata) Token output Token penalaran
DeepSeek V4 Flash 8.3 10.0 75.0% 0 28.51s 140 7,770
DeepSeek V4 Pro 8.3 10.0 75.0% 0 32.12s 64 1,799
Kimi K2.6 7.0 8.0 66.7% 1 11.59s 7,115 8,934
GLM 5 10.0 10.0 100.0% 0 23.66s 480 7,056
Pemrograman Skor Konsistensi Tingkat lulus per percobaan Tes tidak stabil Tes benar Waktu respons (rata-rata) Token output Token penalaran
DeepSeek V4 Flash 10.0 10.0 100.0% 0 62.48s 369 9,361
DeepSeek V4 Pro 10.0 10.0 100.0% 0 93.00s 82 2,808
Kimi K2.6 10.0 10.0 100.0% 0 106.96s 3,236 18,817
GLM 5 10.0 10.0 100.0% 0 79.09s 330 19,814
Gabungan Skor Konsistensi Tingkat lulus per percobaan Tes tidak stabil Tes benar Waktu respons (rata-rata) Token output Token penalaran
DeepSeek V4 Flash 10.0 10.0 100.0% 0 76.57s 465 7,347
DeepSeek V4 Pro 10.0 10.0 100.0% 0 71.08s 134 2,163
Kimi K2.6 10.0 10.0 100.0% 0 40.96s 711 13,876
GLM 5 10.0 10.0 100.0% 0 28.96s 662 3,242
Parsing dan ekstraksi data Skor Konsistensi Tingkat lulus per percobaan Tes tidak stabil Tes benar Waktu respons (rata-rata) Token output Token penalaran
DeepSeek V4 Flash 10.0 10.0 100.0% 0 28.03s 201 1,179
DeepSeek V4 Pro 10.0 10.0 100.0% 0 63.00s 67 1,071
Kimi K2.6 10.0 10.0 100.0% 0 20.38s 316 11,305
GLM 5 7.1 5.6 83.3% 1 8.90s 567 3,734
Spesifik domain Skor Konsistensi Tingkat lulus per percobaan Tes tidak stabil Tes benar Waktu respons (rata-rata) Token output Token penalaran
DeepSeek V4 Flash 4.1 4.4 44.5% 2 112.69s 19 24,857
DeepSeek V4 Pro 5.3 10.0 33.3% 0 202.56s 11 25,343
Kimi K2.6 5.3 7.2 44.4% 1 202.38s 47,035 98,262
GLM 5 3.5 4.4 33.3% 2 0ms 13,176 14,137
Kecerdasan umum Skor Konsistensi Tingkat lulus per percobaan Tes tidak stabil Tes benar Waktu respons (rata-rata) Token output Token penalaran
DeepSeek V4 Flash 6.1 3.1 66.7% 1 25.15s 79 632
DeepSeek V4 Pro 5.0 10.0 0.0% 0 26.96s 51 734
Kimi K2.6 10.0 10.0 100.0% 0 17.83s 3,981 4,472
GLM 5 6.1 3.1 66.7% 1 14.69s 2,020 2,248
Kepatuhan instruksi Skor Konsistensi Tingkat lulus per percobaan Tes tidak stabil Tes benar Waktu respons (rata-rata) Token output Token penalaran
DeepSeek V4 Flash 10.0 10.0 100.0% 0 15.36s 63 1,622
DeepSeek V4 Pro 3.0 10.0 0.0% 0 0ms 0 0
Kimi K2.6 10.0 10.0 100.0% 0 12.53s 3,977 5,269
GLM 5 10.0 10.0 100.0% 0 7.25s 1,001 2,129
Pemecahan teka-teki Skor Konsistensi Tingkat lulus per percobaan Tes tidak stabil Tes benar Waktu respons (rata-rata) Token output Token penalaran
DeepSeek V4 Flash 6.4 4.5 77.8% 2 25.53s 193 2,597
DeepSeek V4 Pro 7.7 10.0 66.7% 0 63.66s 91 3,617
Kimi K2.6 5.0 5.2 44.5% 2 25.59s 14,140 17,868
GLM 5 10.0 10.0 100.0% 0 15.64s 1,694 4,983
Pemanggilan alat Skor Konsistensi Tingkat lulus per percobaan Tes tidak stabil Tes benar Waktu respons (rata-rata) Token output Token penalaran
DeepSeek V4 Flash 10.0 10.0 100.0% 0 74.73s 228 542
DeepSeek V4 Pro 10.0 10.0 100.0% 0 11.05s 84 173
Kimi K2.6 10.0 10.0 100.0% 0 8.92s 248 1,011
GLM 5 10.0 10.0 100.0% 0 15.93s 233 994

Perbandingan Cepat

Ganti Pasangan Perbandingan