AI BENCHY
Advertise here

Kegagalan kategori AI BENCHY

Trik anti-AI: Jawaban salah

Trik anti-AI
Jawaban salah

Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Trik anti-AI, agar Anda bisa menemukan titik lemahnya lebih cepat.

Model yang ditampilkan

15

Total kegagalan

245

Model yang paling terdampak

Gemini 2.5 Flash 4
Peringkat Model Perusahaan Jumlah Jawaban salah Skor kategori Tes benar Waktu respons (rata-rata)
#48 Gemini 3 Flash Preview none Google 1 8.3 3/4 1.25s
#50 Gemini 3.1 Flash Lite Preview low Google 1 8.3 3/4 2.12s
#52 Claude Sonnet 4.6 medium Anthropic 1 6.5 2/4 2.98s
#53 Gemini 3.1 Flash Lite high Google 1 8.7 3/4 37.2s
#54 GPT-5 Mini medium OpenAI 1 7.1 2/4 13.9s
#57 Step 3.7 Flash low Stepfun 1 8.7 3/4 4.02s
#58 Gemini 3.1 Flash Lite Preview none Google 1 7.5 2/4 1.04s
#59 GLM 5V Turbo medium Z.ai 1 7.2 2/4 10.8s
#60 Kimi K2.6 medium Moonshot AI 1 7.0 2/4 11.6s
#63 GPT-5.3 Chat none OpenAI 1 6.7 2/4 3.86s
#65 Grok 4.20 medium X AI 1 8.2 3/4 3.95s
#70 GPT-5.4 Nano medium OpenAI 1 8.3 3/4 4.52s
#73 Seed-2.0-Mini medium Bytedance Seed 1 6.6 2/4 74.7s
#76 Kimi K2.5 medium Moonshot AI 1 7.3 2/4 51.4s
#77 Claude Sonnet 4.6 none Anthropic 1 4.8 1/4 2.94s

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang