AI BENCHY
Advertise here

AI BENCHY 分类

常识问答 排名

看看哪些 AI 模型在 常识问答 上表现最好,哪些更稳定,以及差距主要出现在哪里。 排序方式: 响应时间(平均) ↑.

显示的模型数

15

常识问答 得分 平均值

2.9

排名 模型 公司 常识问答 得分 分数 测试正确 响应时间(平均)
#40 Gemini 3.1 Flash Lite Preview none Google 3.0 7.7 0/1 814ms
#98 GPT-5.4 none OpenAI 3.0 5.7 0/1 990ms
#118 Ling-2.6-flash none Inclusionai 3.0 5.3 0/1 1.06s
#29 Gemini 3 Flash Preview none Google 3.0 7.9 0/1 1.07s
#76 Qwen3.5 Plus 2026-02-15 none Qwen 3.0 6.5 0/1 1.11s
#81 Gemini 2.5 Flash none Google 3.0 6.3 0/1 1.15s
#64 Gemma 4 31B none Google 3.0 6.9 0/1 1.25s
#79 MiMo-V2-Omni none Xiaomi 3.0 6.3 0/1 1.30s
#125 GPT-5.4 Mini none OpenAI 3.0 5.0 0/1 1.33s
#30 Gemini 3.1 Flash Lite Preview low Google 3.0 7.9 0/1 1.35s
#100 Kimi K2.6 none Moonshot AI 3.0 5.7 0/1 1.36s
#5 Claude Opus 4.7 none Anthropic 3.0 8.9 0/1 1.46s
#44 Gemini 3.1 Flash Lite low Google 3.0 7.6 0/1 1.46s
#92 MiMo-V2-Pro none Xiaomi 3.0 5.9 0/1 1.63s
#137 MiMo-V2-Flash none Xiaomi 3.0 4.5 0/1 1.82s

按 常识问答 得分 排名的顶级模型

常识问答 得分 vs 总成本

按 响应时间(平均) 排名的顶级模型