AI BENCHY
基准测试方法论
本页以高层方式说明我们的评测方法。为保护测试完整性,我们不会公开具体提示词和评分细节。
工作方式(高层)
- 私有测试:我们不会公开具体测试内容、提示词或完整评分细节。
- 多次运行:每个模型会运行多次,结果反映稳定性,而不是一次偶然发挥。
- 推理模式:在支持的情况下,我们会在多种推理配置下评测模型。
- OpenRouter 执行:基准请求通过 OpenRouter 路由执行。
- 真实可靠性:超时、服务宕机和 API 错误都计为失败尝试。
- 小而快速、持续演进:因为测试集较小,我们能更快测试新模型,并持续增删测试。
- 通用智能信号:该分数不针对单一类别,而是回答一个实际问题:当你向 AI 提问时,它正确回答的可能性有多大?
我们公开方法论的大方向以保证透明度,同时保留敏感测试细节的私密性。