AI BENCHY
Advertise here

Kushindwa kwa kategoria za AI BENCHY

Utatuzi wa mafumbo: Hakufuata maelekezo

Utatuzi wa mafumbo
Hakufuata maelekezo

Ona ni modeli gani za AI zina uwezekano mkubwa wa kupata Hakufuata maelekezo katika Utatuzi wa mafumbo, ili uone udhaifu haraka. Panga kwa: Idadi ya kushindwa ↑.

Modeli zilizoonyeshwa

15

Jumla ya kushindwa

78

Modeli iliyoathirika zaidi

Gemini 3.1 Flash Lite Preview 1
Nafasi Modeli Kampuni Idadi ya Hakufuata maelekezo Alama ya kategoria Majaribio sahihi Muda wa majibu (wastani)
#12 Gemini 3.1 Flash Lite Preview high Google 1 7.7 2/3 46.7s
#15 GPT-5.3-Codex medium OpenAI 1 9.0 2/3 5.05s
#19 Seed-2.0-Lite medium Bytedance Seed 1 9.0 2/3 10.2s
#21 GPT-5.4 medium OpenAI 1 8.2 2/3 9.14s
#23 GLM 5 Turbo medium Z.ai 1 8.7 2/3 5.23s
#30 Qwen3.5-27B medium Qwen 1 8.2 2/3 59.6s
#31 DeepSeek V4 Flash high DeepSeek 1 8.2 2/3 26.1s
#33 Hy3 preview medium Tencent 1 7.7 2/3 11.1s
#38 Grok 4.3 medium X AI 1 5.9 1/3 22.5s
#39 Qwen3.6 Flash medium Qwen 1 8.2 2/3 6.29s
#42 GPT-5.2 medium OpenAI 1 7.5 2/3 5.80s
#43 MiMo-V2.5-Pro medium Xiaomi 1 6.7 1/3 5.31s
#45 GPT-5.4 Mini medium OpenAI 1 7.8 2/3 4.37s
#51 Mimo V2 PRO medium Xiaomi 1 6.4 1/3 5.08s
#54 GPT-5 Mini medium OpenAI 1 5.6 1/3 15.2s

Modeli bora kwa Idadi ya Hakufuata maelekezo

Idadi ya Hakufuata maelekezo dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa