AI BENCHY

基准测试方法论

本页以高层方式说明我们的评测方法。为保护测试完整性，我们不会公开具体提示词和评分细节。

测试

这些问题大多是比较随机地选出来的，覆盖不同任务和领域。从统计上说，在随机、非刻意挑选的任务上，更强的模型平均应该比更弱的模型表现更好。我有竞赛编程背景，所以会很自然地去想测试和边界情况。

这不是什么标准化的 "IQ" 数值。这个分数没有单位；它只是一个任意值，用来表示某个模型在整套测试中的表现如何（正确答案 + 一致性）。我不会刻意挑选模型，也不会为了迁就某个模型去修改测试。每当我想到一个新测试，就会把它加进去，重新测试所有模型，并重新计算分数。

这些问题通常都来自一些简单的想法，比如："我想知道，如果让模型做 X、Y 或 Z，它们会不会表现得好。" 例如："请回答两个相等的自然数 a 和 b，它们相加的总和为 2。请严格按照这个格式作答：a,b"。有些 AI 可能会答错，比如 "2,2"。有些可能不满足两个数必须相等这个要求，比如 "0,2"。还有些可能会忽略输出格式，比如 "The answer is a = 1 and b = 1"。当然，也有些会直接正确回答 "1,1"。

有些测试会比这个更复杂，但大意就是这样。这并不是在偏袒任何特定模型，而且这些问题对人类来说通常都非常简单。

Cristian

工作方式（高层）

私有测试：我们不会公开具体测试内容、提示词或完整评分细节。
多次运行：每个模型会运行多次，结果反映稳定性，而不是一次偶然发挥。
推理模式：在支持的情况下，我们会在多种推理配置下评测模型。
OpenRouter 执行：基准请求通过 OpenRouter 路由执行。
真实可靠性：超时、服务宕机和 API 错误都计为失败尝试。
小而快速、持续演进：因为测试集较小，我们能更快测试新模型，并持续增删测试。
通用智能信号：该分数不针对单一类别，而是回答一个实际问题：当你向 AI 提问时，它正确回答的可能性有多大？

我们公开方法论的大方向以保证透明度，同时保留敏感测试细节的私密性。