AI BENCHY
基准测试方法论
本页以高层方式说明我们的评测方法。为保护测试完整性,我们不会公开具体提示词和评分细节。
测试
这些问题大多是比较随机地选出来的,覆盖不同任务和领域。从统计上说,在随机、非刻意挑选的任务上,更强的模型平均应该比更弱的模型表现更好。我有竞赛编程背景,所以会很自然地去想测试和边界情况。
这不是什么标准化的 "IQ" 数值。这个分数没有单位;它只是一个任意值,用来表示某个模型在整套测试中的表现如何(正确答案 + 一致性)。我不会刻意挑选模型,也不会为了迁就某个模型去修改测试。每当我想到一个新测试,就会把它加进去,重新测试所有模型,并重新计算分数。
这些问题通常都来自一些简单的想法,比如:"我想知道,如果让模型做 X、Y 或 Z,它们会不会表现得好。" 例如:"请回答两个相等的自然数 a 和 b,它们相加的总和为 2。请严格按照这个格式作答:a,b"。有些 AI 可能会答错,比如 "2,2"。有些可能不满足两个数必须相等这个要求,比如 "0,2"。还有些可能会忽略输出格式,比如 "The answer is a = 1 and b = 1"。当然,也有些会直接正确回答 "1,1"。
有些测试会比这个更复杂,但大意就是这样。这并不是在偏袒任何特定模型,而且这些问题对人类来说通常都非常简单。如果 Claude 输出类似 "**1**, **1**" 这样的结果,额外加上 markdown 强调,而大多数其他模型都能正确遵守要求的格式,那也不能怪我。
工作方式(高层)
- 私有测试:我们不会公开具体测试内容、提示词或完整评分细节。
- 多次运行:每个模型会运行多次,结果反映稳定性,而不是一次偶然发挥。
- 推理模式:在支持的情况下,我们会在多种推理配置下评测模型。
- OpenRouter 执行:基准请求通过 OpenRouter 路由执行。
- 真实可靠性:超时、服务宕机和 API 错误都计为失败尝试。
- 小而快速、持续演进:因为测试集较小,我们能更快测试新模型,并持续增删测试。
- 通用智能信号:该分数不针对单一类别,而是回答一个实际问题:当你向 AI 提问时,它正确回答的可能性有多大?
我们公开方法论的大方向以保证透明度,同时保留敏感测试细节的私密性。