AI BENCHY
Advertise here

Kategori AI BENCHY

Peringkat Spesifik domain

Lihat model AI mana yang paling baik di Spesifik domain, mana yang tetap andal, dan di mana kesenjangan terbesar muncul. Urutkan berdasarkan: Tes benar ↑.

Model yang ditampilkan

15

Rata-rata Skor Spesifik domain

4.8

Peringkat Model Perusahaan Skor Spesifik domain Skor Tes benar Waktu respons (rata-rata)
#53 Gemini 3.1 Flash Lite high Google 3.6 7.3 0/3 139.9s
#54 GPT-5 Mini medium OpenAI 3.6 7.3 0/3 44.6s
#63 GPT-5.3 Chat none OpenAI 3.5 7.2 0/3 13.0s
#66 Qwen3.5-35B-A3B medium Qwen 4.1 7.1 0/3 88.3s
#69 Claude Opus 4.6 medium Anthropic 3.0 7.0 0/3 83.4s
#71 Step 3.7 Flash high Stepfun 4.1 7.0 0/3 149.6s
#72 DeepSeek V3.2 medium DeepSeek 2.9 7.0 0/3 24.3s
#73 Seed-2.0-Mini medium Bytedance Seed 3.0 6.9 0/3 0ms
#75 Ring-2.6-1T medium Inclusionai 3.5 6.9 0/3 64.9s
#76 Kimi K2.5 medium Moonshot AI 3.5 6.8 0/3 137.3s
#78 Qwen3.6 27B medium Qwen 2.9 6.8 0/3 73.4s
#79 Hunter Alpha medium OpenRouter 3.0 6.7 0/3 10.5s
#80 Mimo V2 Omni medium Xiaomi 3.0 6.7 0/3 47.9s
#81 Mercury 2 medium Inception 2.9 6.6 0/3 6.48s
#84 Grok 4.20 Multi Agent Beta medium X AI 2.9 6.6 0/3 24.7s

Model teratas menurut Skor Spesifik domain

Skor Spesifik domain vs total biaya

Model teratas menurut Waktu respons (rata-rata)