比较图表方法论

语言:

❤️ Made by XCS

AI BENCHY

基准测试方法论

本页以高层方式说明我们的评测方法。为保护测试完整性，我们不会公开具体提示词和评分细节。

工作方式（高层）

私有测试：我们不会公开具体测试内容、提示词或完整评分细节。
多次运行：每个模型会运行多次，结果反映稳定性，而不是一次偶然发挥。
推理模式：在支持的情况下，我们会在多种推理配置下评测模型。
OpenRouter 执行：基准请求通过 OpenRouter 路由执行。
真实可靠性：超时、服务宕机和 API 错误都计为失败尝试。
小而快速、持续演进：因为测试集较小，我们能更快测试新模型，并持续增删测试。
通用智能信号：该分数不针对单一类别，而是回答一个实际问题：当你向 AI 提问时，它正确回答的可能性有多大？

我们公开方法论的大方向以保证透明度，同时保留敏感测试细节的私密性。