常识问答模型排名 | AI BENCHY

AI BENCHY 分类

看看哪些 AI 模型在常识问答上表现最好，哪些更稳定，以及差距主要出现在哪里。排序方式: 测试正确 ↓.

显示的模型数

15

常识问答得分平均值

2.9

最佳模型

Gemini 3 Flash Preview 10.0

失败原因

失败原因为答案错误117

排名	模型	公司	常识问答得分	分数	测试正确	响应时间（平均）
#50	Qwen3.6 Flash medium	Qwen	3.0	7.5	0/1	122.9s
#52	Claude Opus 4.6 medium	Anthropic	3.0	7.4	0/1	63.2s
#53	GPT-5.4 Nano medium	OpenAI	3.0	7.3	0/1	4.81s
#54	Qwen3.6 Max Preview none	Qwen	3.0	7.2	0/1	1.97s
#55	MiMo-V2-Flash medium	Xiaomi	3.0	7.2	0/1	1.96s
#56	Seed-2.0-Mini medium	Bytedance Seed	3.0	7.2	0/1	56.8s
#57	Qwen3.5-35B-A3B medium	Qwen	3.0	7.2	0/1	177.4s
#58	GPT-5.2 medium	OpenAI	3.0	7.2	0/1	28.2s
#59	DeepSeek V3.2 medium	DeepSeek	3.0	7.2	0/1	84.0s
#60	GPT-5.4 Mini medium	OpenAI	3.0	7.2	0/1	30.1s
#61	Claude Sonnet 4.6 none	Anthropic	3.0	7.2	0/1	4.67s
#62	MiMo-V2-Omni medium	Xiaomi	3.0	7.2	0/1	234.2s
#63	Laguna M.1 medium	Poolside	0.0	6.9	0/0	0ms
#64	Gemma 4 31B none	Google	3.0	6.9	0/1	1.25s
#65	DeepSeek V4 Pro high	DeepSeek	3.0	6.9	0/1	39.1s

←

1 3 4 5 9

→

按常识问答得分排名的顶级模型

常识问答得分 vs 总成本

按响应时间（平均）排名的顶级模型