AI BENCHY
Advertise here

Kegagalan AI BENCHY

Kegagalan Jawaban salah

Lihat model AI mana yang paling sering mengalami Jawaban salah, agar Anda bisa melihat risiko keandalan sebelum memilih. Urutkan berdasarkan: Waktu respons (rata-rata) ↓.

Model yang ditampilkan

15

Total kegagalan

1204

Model yang paling terdampak

Kimi K2.5 5
Peringkat Model Perusahaan Jumlah Jawaban salah Skor Tes benar Waktu respons (rata-rata)
#49 Qwen3.5-Flash medium Qwen 4 7.4 12/21 63.3s
#53 Gemini 3.1 Flash Lite high Google 4 7.3 10/18 62.0s
#75 Ring-2.6-1T medium Inclusionai 6 6.9 11/21 61.3s
#78 Qwen3.6 27B medium Qwen 6 6.8 10/21 59.7s
#14 Qwen3.6 Max Preview medium Qwen 5 8.5 16/21 59.6s
#82 Hy3 preview high Tencent 3 6.6 11/21 56.6s
#27 Gemma 4 31B medium Google 2 7.8 14/21 56.5s
#96 Ring-2.6-1T none Inclusionai 5 6.2 9/21 55.1s
#47 Grok Build 0.1 medium X AI 5 7.4 13/21 49.9s
#38 Grok 4.3 medium X AI 5 7.6 13/21 47.5s
#19 Seed-2.0-Lite medium Bytedance Seed 5 8.2 14/21 47.1s
#36 Qwen3.5 Plus 2026-04-20 medium Qwen 8 7.6 13/21 46.4s
#31 DeepSeek V4 Flash high DeepSeek 6 7.7 13/21 45.8s
#94 GPT-5 Nano medium OpenAI 9 6.3 9/21 42.5s
#29 Qwen3.5-122B-A10B medium Qwen 5 7.8 14/21 42.5s

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)