AI BENCHY
比较 图表 方法论
❤️ Made by XCS
Your ad here

AI BENCHY

基准测试方法论

本页以高层方式说明我们的评测方法。为保护测试完整性,我们不会公开具体提示词和评分细节。

工作方式(高层)

  • 私有测试:我们不会公开具体测试内容、提示词或完整评分细节。
  • 多次运行:每个模型会运行多次,结果反映稳定性,而不是一次偶然发挥。
  • 推理模式:在支持的情况下,我们会在多种推理配置下评测模型。
  • OpenRouter 执行:基准请求通过 OpenRouter 路由执行。
  • 真实可靠性:超时、服务宕机和 API 错误都计为失败尝试。
  • 小而快速、持续演进:因为测试集较小,我们能更快测试新模型,并持续增删测试。
  • 通用智能信号:该分数不针对单一类别,而是回答一个实际问题:当你向 AI 提问时,它正确回答的可能性有多大?

我们公开方法论的大方向以保证透明度,同时保留敏感测试细节的私密性。