| 排名 |
#24 |
#47 |
#32 |
#1 |
| 平均分 |
7.0
所有基准测试的平均分。
…
|
4.9
所有基准测试的平均分。
…
|
6.2
所有基准测试的平均分。
…
|
10.0
所有基准测试的平均分。
…
|
| 一致性 |
9.0
一致性分数反映运行之间的稳定程度(10 = 非常稳定,即使稳定地答错)。
…
|
7.1
一致性分数反映运行之间的稳定程度(10 = 非常稳定,即使稳定地答错)。
…
|
7.9
一致性分数反映运行之间的稳定程度(10 = 非常稳定,即使稳定地答错)。
…
|
10.0
一致性分数反映运行之间的稳定程度(10 = 非常稳定,即使稳定地答错)。
…
|
| 每个结果成本 |
5.989
显示每个基准正确答案的平均成本(单位:美分,越低越好)。
…
|
97.178
显示每个基准正确答案的平均成本(单位:美分,越低越好)。
…
|
0.563
显示每个基准正确答案的平均成本(单位:美分,越低越好)。
…
|
1.025
显示每个基准正确答案的平均成本(单位:美分,越低越好)。
…
|
| 总成本 |
$0.599
总成本
…
|
$4.859
总成本
…
|
$0.051
总成本
…
|
$0.164
总成本
…
|
| 测试正确 |
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 3 答案错误: 3
响应时间(平均)8.89s
响应时间(最大)24.21s
响应时间(总计)142.18s
只有当某个测试的所有运行都通过时,才计为完全通过。
…
|
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 4 答案错误: 3 API 错误: 2 额外格式: 2
响应时间(平均)9.08s
响应时间(最大)35.28s
响应时间(总计)127.09s
只有当某个测试的所有运行都通过时,才计为完全通过。
…
|
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 3 答案错误: 2 无答案: 1 超时: 1
响应时间(平均)26.35s
响应时间(最大)121.79s
响应时间(总计)237.11s
只有当某个测试的所有运行都通过时,才计为完全通过。
…
|
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)12.36s
响应时间(最大)50.16s
响应时间(总计)111.21s
只有当某个测试的所有运行都通过时,才计为完全通过。
…
|
| 尝试通过率 |
70.8%
尝试通过率 = 通过的尝试次数 / 所有运行中的总尝试次数。
…
|
52.1%
尝试通过率 = 通过的尝试次数 / 所有运行中的总尝试次数。
…
|
66.7%
尝试通过率 = 通过的尝试次数 / 所有运行中的总尝试次数。
…
|
100.0%
尝试通过率 = 通过的尝试次数 / 所有运行中的总尝试次数。
…
|
| 不稳定测试 |
2
不稳定测试在运行之间出现混合结果(至少一次通过且至少一次失败)。
…
|
6
不稳定测试在运行之间出现混合结果(至少一次通过且至少一次失败)。
…
|
4
不稳定测试在运行之间出现混合结果(至少一次通过且至少一次失败)。
…
|
0
不稳定测试在运行之间出现混合结果(至少一次通过且至少一次失败)。
…
|
| 总运行次数 |
48
总运行次数
…
|
48
总运行次数
…
|
48
总运行次数
…
|
48
总运行次数
…
|
| 输出令牌 |
1,481
输出令牌
…
|
293,634
输出令牌
…
|
1,183
输出令牌
…
|
1,634
输出令牌
…
|
| 推理令牌 |
86,628
推理令牌
…
|
291,260
推理令牌
…
|
83,875
推理令牌
…
|
47,907
推理令牌
…
|
| 响应时间(平均) |
8.89s
响应时间(平均)
…
|
9.08s
响应时间(平均)
…
|
26.35s
响应时间(平均)
…
|
12.36s
响应时间(平均)
…
|
| 响应时间(最大) |
24.21s
响应时间(最大)
…
|
35.28s
响应时间(最大)
…
|
121.79s
响应时间(最大)
…
|
50.16s
响应时间(最大)
…
|
| 响应时间(总计) |
142.18s
响应时间(总计)
…
|
127.09s
响应时间(总计)
…
|
237.11s
响应时间(总计)
…
|
111.21s
响应时间(总计)
…
|