| #61#61 |
DeepSeek V4 Pronone
|
6.7… |
DeepSeek |
$0.030… |
23.34s… |
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 6 额外格式: 2 未遵循指令: 1
响应时间(平均)23.34s
响应时间(最大)109.46s
响应时间(总计)420.04s
…
|
总测试数: 18
错误测试数: 9
可靠性: 不适用该模型的可靠性遥测不可用或不完整。
尝试通过率: 51.9%
不稳定测试: 1…
输出令牌: 1,611
推理令牌: 0
响应时间:平均 23.34s · 总计 420.04s · 最大 109.46s
-
反AI技巧
: 4.8
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 2 额外格式: 1
响应时间(平均)36.12s
响应时间(最大)109.46s
响应时间(总计)144.50s
-
编程
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)33.40s
响应时间(最大)33.40s
响应时间(总计)33.40s
-
综合
: 9.5
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)34.55s
响应时间(最大)34.55s
响应时间(总计)34.55s
-
数据解析与提取
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)54.04s
响应时间(最大)105.46s
响应时间(总计)108.08s
-
领域专项
: 5.3
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 2
响应时间(平均)3.08s
响应时间(最大)6.59s
响应时间(总计)9.24s
-
通用智能
: 4.5
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)6.06s
响应时间(最大)6.06s
响应时间(总计)6.06s
-
指令遵循
: 6.5
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)9.47s
响应时间(最大)13.43s
响应时间(总计)18.95s
-
谜题求解
: 6.0
只有当某个测试的所有运行都通过时,才计为完全通过。
额外格式: 1 未遵循指令: 1
响应时间(平均)19.60s
响应时间(最大)38.42s
响应时间(总计)58.79s
-
工具调用
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)6.47s
响应时间(最大)6.47s
响应时间(总计)6.47s
|
| #62#62 |
Grok 4.1 Fastmedium
|
6.7… |
X AI |
$0.056… |
23.88s… |
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 4 答案错误: 3 无答案: 1 超时: 1
响应时间(平均)23.88s
响应时间(最大)121.79s
响应时间(总计)262.66s
…
|
总测试数: 18
错误测试数: 9
可靠性: 不适用该模型的可靠性遥测不可用或不完整。
尝试通过率: 64.8%
不稳定测试: 6…
输出令牌: 2,010
推理令牌: 91,298
响应时间:平均 23.88s · 总计 262.66s · 最大 121.79s
-
反AI技巧
: 8.7
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)3.81s
响应时间(最大)5.65s
响应时间(总计)7.62s
-
编程
: 2.3
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 1
响应时间(平均)23.58s
响应时间(最大)23.58s
响应时间(总计)23.58s
-
综合
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)37.64s
响应时间(最大)37.64s
响应时间(总计)37.64s
-
数据解析与提取
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)6.63s
响应时间(最大)6.63s
响应时间(总计)6.63s
-
领域专项
: 5.8
只有当某个测试的所有运行都通过时,才计为完全通过。
超时: 1 答案错误: 1
响应时间(平均)121.79s
响应时间(最大)121.79s
响应时间(总计)121.79s
-
通用智能
: 4.2
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 1
响应时间(平均)16.25s
响应时间(最大)16.25s
响应时间(总计)16.25s
-
指令遵循
: 6.6
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 1
响应时间(平均)5.30s
响应时间(最大)5.30s
响应时间(总计)5.30s
-
谜题求解
: 5.3
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 1 答案错误: 1
响应时间(平均)8.08s
响应时间(最大)8.38s
响应时间(总计)16.17s
-
工具调用
: 2.8
只有当某个测试的所有运行都通过时,才计为完全通过。
无答案: 1
响应时间(平均)27.71s
响应时间(最大)27.71s
响应时间(总计)27.71s
|
| #63#63 |
GLM 5none
|
6.6… |
Z.ai |
$0.020… |
4.23s… |
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 9
响应时间(平均)4.23s
响应时间(最大)11.07s
响应时间(总计)46.51s
…
|
总测试数: 18
错误测试数: 9
可靠性: 不适用该模型的可靠性遥测不可用或不完整。
尝试通过率: 51.9%
不稳定测试: 1…
输出令牌: 1,959
推理令牌: 0
响应时间:平均 4.23s · 总计 46.51s · 最大 11.07s
-
反AI技巧
: 4.8
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 3
响应时间(平均)2.37s
响应时间(最大)3.39s
响应时间(总计)4.75s
-
编程
: 5.6
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)8.84s
响应时间(最大)8.84s
响应时间(总计)8.84s
-
综合
: 3.0
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)4.98s
响应时间(最大)4.98s
响应时间(总计)4.98s
-
数据解析与提取
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)5.78s
响应时间(最大)5.78s
响应时间(总计)5.78s
-
领域专项
: 3.0
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 3
响应时间(平均)2.24s
响应时间(最大)2.24s
响应时间(总计)2.24s
-
通用智能
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)3.27s
响应时间(最大)3.27s
响应时间(总计)3.27s
-
指令遵循
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)1.48s
响应时间(最大)1.48s
响应时间(总计)1.48s
-
谜题求解
: 7.7
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)2.05s
响应时间(最大)2.08s
响应时间(总计)4.10s
-
工具调用
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)11.07s
响应时间(最大)11.07s
响应时间(总计)11.07s
|
| #64#64 |
Mercury 2medium
|
6.5… |
Inception |
$0.047… |
2.21s… |
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 6 未遵循指令: 4
响应时间(平均)2.21s
响应时间(最大)14.63s
响应时间(总计)37.51s
…
|
总测试数: 18
错误测试数: 10
可靠性: 不适用该模型的可靠性遥测不可用或不完整。
尝试通过率: 53.7%
不稳定测试: 3…
输出令牌: 3,972
推理令牌: 48,333
响应时间:平均 2.21s · 总计 37.51s · 最大 14.63s
-
反AI技巧
: 6.9
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 1 答案错误: 1
响应时间(平均)1.12s
响应时间(最大)2.46s
响应时间(总计)4.49s
-
编程
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)1.53s
响应时间(最大)1.53s
响应时间(总计)1.53s
-
综合
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)3.28s
响应时间(最大)3.28s
响应时间(总计)3.28s
-
数据解析与提取
: 7.3
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)1.11s
响应时间(最大)1.47s
响应时间(总计)2.21s
-
领域专项
: 2.9
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 3
响应时间(平均)6.48s
响应时间(最大)14.63s
响应时间(总计)19.43s
-
通用智能
: 4.8
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 1
响应时间(平均)821ms
响应时间(最大)821ms
响应时间(总计)821ms
-
指令遵循
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)1.07s
响应时间(最大)1.07s
响应时间(总计)1.07s
-
谜题求解
: 3.9
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 2 答案错误: 1
响应时间(平均)934ms
响应时间(最大)1.18s
响应时间(总计)2.80s
-
工具调用
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)1.89s
响应时间(最大)1.89s
响应时间(总计)1.89s
|
| #65#65 |
MiMo-V2-Omninone
|
6.5… |
Xiaomi |
$0.007… |
1.99s… |
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 8 未遵循指令: 2
响应时间(平均)1.99s
响应时间(最大)6.81s
响应时间(总计)35.81s
…
|
总测试数: 18
错误测试数: 10
可靠性: 不适用该模型的可靠性遥测不可用或不完整。
尝试通过率: 44.4%
不稳定测试: 0…
输出令牌: 868
推理令牌: 0
响应时间:平均 1.99s · 总计 35.81s · 最大 6.81s
-
反AI技巧
: 4.8
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 3
响应时间(平均)1.10s
响应时间(最大)2.08s
响应时间(总计)4.39s
-
编程
: 6.6
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)1.72s
响应时间(最大)1.72s
响应时间(总计)1.72s
-
综合
: 3.0
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)2.47s
响应时间(最大)2.47s
响应时间(总计)2.47s
-
数据解析与提取
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)1.69s
响应时间(最大)2.46s
响应时间(总计)3.38s
-
领域专项
: 5.3
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 2
响应时间(平均)1.14s
响应时间(最大)1.63s
响应时间(总计)3.41s
-
通用智能
: 4.5
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 1
响应时间(平均)1.19s
响应时间(最大)1.19s
响应时间(总计)1.19s
-
指令遵循
: 6.5
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)4.18s
响应时间(最大)6.81s
响应时间(总计)8.36s
-
谜题求解
: 8.0
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 1
响应时间(平均)2.71s
响应时间(最大)5.96s
响应时间(总计)8.14s
-
工具调用
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)2.76s
响应时间(最大)2.76s
响应时间(总计)2.76s
|
| #66#66 |
Grok 4.20 Multi Agent Betamedium已归档模型:该模型将不再更新,也不会在新测试中继续测试。
|
6.4… |
X AI |
$5.074… |
9.80s… |
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 4 答案错误: 3 API 错误: 2 额外格式: 2
响应时间(平均)9.80s
响应时间(最大)35.28s
响应时间(总计)156.75s
…
|
总测试数: 18
错误测试数: 11
可靠性: 不适用该模型的可靠性遥测不可用或不完整。
尝试通过率: 57.4%
不稳定测试: 6…
输出令牌: 299,034
推理令牌: 309,670
响应时间:平均 9.80s · 总计 156.75s · 最大 35.28s
-
反AI技巧
: 6.9
只有当某个测试的所有运行都通过时,才计为完全通过。
额外格式: 1 答案错误: 1
响应时间(平均)3.46s
响应时间(最大)4.38s
响应时间(总计)13.86s
-
编程
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)27.11s
响应时间(最大)27.11s
响应时间(总计)27.11s
-
综合
: 3.0
只有当某个测试的所有运行都通过时,才计为完全通过。
API 错误: 1
响应时间(平均)0ms
响应时间(最大)0ms
响应时间(总计)0ms
-
数据解析与提取
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)5.54s
响应时间(最大)7.51s
响应时间(总计)11.08s
-
领域专项
: 2.9
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 2 额外格式: 1
响应时间(平均)24.67s
响应时间(最大)35.28s
响应时间(总计)74.02s
-
通用智能
: 5.8
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 1
响应时间(平均)6.40s
响应时间(最大)6.40s
响应时间(总计)6.40s
-
指令遵循
: 8.3
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 1
响应时间(平均)4.63s
响应时间(最大)5.46s
响应时间(总计)9.26s
-
谜题求解
: 7.2
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 2
响应时间(平均)5.01s
响应时间(最大)5.49s
响应时间(总计)15.03s
-
工具调用
: 3.0
只有当某个测试的所有运行都通过时,才计为完全通过。
API 错误: 1
响应时间(平均)0ms
响应时间(最大)0ms
响应时间(总计)0ms
|
| #67#67 |
GPT-5 Nanomedium
|
6.3… |
OpenAI |
$0.066… |
44.13s… |
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 7 未遵循指令: 3 超时: 1
响应时间(平均)44.13s
响应时间(最大)204.02s
响应时间(总计)485.47s
…
|
总测试数: 18
错误测试数: 11
可靠性: 不适用该模型的可靠性遥测不可用或不完整。
尝试通过率: 59.3%
不稳定测试: 8…
输出令牌: 4,980
推理令牌: 156,288
响应时间:平均 44.13s · 总计 485.47s · 最大 204.02s
-
反AI技巧
: 6.5
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 2
响应时间(平均)25.50s
响应时间(最大)37.73s
响应时间(总计)51.00s
-
编程
: 6.7
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)40.73s
响应时间(最大)40.73s
响应时间(总计)40.73s
-
综合
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)65.96s
响应时间(最大)65.96s
响应时间(总计)65.96s
-
数据解析与提取
: 3.7
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 2
响应时间(平均)21.42s
响应时间(最大)21.42s
响应时间(总计)21.42s
-
领域专项
: 5.2
只有当某个测试的所有运行都通过时,才计为完全通过。
超时: 1 答案错误: 1
响应时间(平均)204.02s
响应时间(最大)204.02s
响应时间(总计)204.02s
-
通用智能
: 4.1
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 1
响应时间(平均)17.51s
响应时间(最大)17.51s
响应时间(总计)17.51s
-
指令遵循
: 8.5
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 1
响应时间(平均)11.90s
响应时间(最大)11.90s
响应时间(总计)11.90s
-
谜题求解
: 5.3
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 1 答案错误: 1
响应时间(平均)19.81s
响应时间(最大)21.31s
响应时间(总计)39.63s
-
工具调用
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)33.30s
响应时间(最大)33.30s
响应时间(总计)33.30s
|
| #68#68 |
GLM 5V Turbonone
|
6.2… |
Z.ai |
$0.044… |
3.10s… |
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 8 未遵循指令: 2
响应时间(平均)3.10s
响应时间(最大)6.51s
响应时间(总计)55.87s
…
|
总测试数: 18
错误测试数: 10
可靠性: 不适用该模型的可靠性遥测不可用或不完整。
尝试通过率: 44.4%
不稳定测试: 0…
输出令牌: 1,724
推理令牌: 0
响应时间:平均 3.10s · 总计 55.87s · 最大 6.51s
-
反AI技巧
: 4.8
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 3
响应时间(平均)3.13s
响应时间(最大)5.90s
响应时间(总计)12.50s
-
编程
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)5.30s
响应时间(最大)5.30s
响应时间(总计)5.30s
-
综合
: 3.0
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)6.51s
响应时间(最大)6.51s
响应时间(总计)6.51s
-
数据解析与提取
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)3.81s
响应时间(最大)5.69s
响应时间(总计)7.62s
-
领域专项
: 5.3
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 2
响应时间(平均)2.09s
响应时间(最大)2.39s
响应时间(总计)6.26s
-
通用智能
: 4.6
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 1
响应时间(平均)2.22s
响应时间(最大)2.22s
响应时间(总计)2.22s
-
指令遵循
: 6.5
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)1.97s
响应时间(最大)2.43s
响应时间(总计)3.93s
-
谜题求解
: 5.3
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 1 答案错误: 1
响应时间(平均)2.22s
响应时间(最大)3.81s
响应时间(总计)6.67s
-
工具调用
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)4.86s
响应时间(最大)4.86s
响应时间(总计)4.86s
|
| #69#69 |
Qwen3.5-Flashnone
|
6.2… |
Qwen |
$0.006… |
3.25s… |
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 9 未遵循指令: 1
响应时间(平均)3.25s
响应时间(最大)13.73s
响应时间(总计)58.44s
…
|
总测试数: 18
错误测试数: 10
可靠性: 不适用该模型的可靠性遥测不可用或不完整。
尝试通过率: 46.3%
不稳定测试: 1…
输出令牌: 4,266
推理令牌: 0
响应时间:平均 3.25s · 总计 58.44s · 最大 13.73s
-
反AI技巧
: 3.5
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 4
响应时间(平均)1.32s
响应时间(最大)3.89s
响应时间(总计)5.30s
-
编程
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)1.29s
响应时间(最大)1.29s
响应时间(总计)1.29s
-
综合
: 3.0
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)6.22s
响应时间(最大)6.22s
响应时间(总计)6.22s
-
数据解析与提取
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)1.57s
响应时间(最大)1.83s
响应时间(总计)3.14s
-
领域专项
: 7.7
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)905ms
响应时间(最大)1.10s
响应时间(总计)2.71s
-
通用智能
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)803ms
响应时间(最大)803ms
响应时间(总计)803ms
-
指令遵循
: 6.3
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)8.81s
响应时间(最大)13.73s
响应时间(总计)17.61s
-
谜题求解
: 3.3
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 2 未遵循指令: 1
响应时间(平均)5.90s
响应时间(最大)12.19s
响应时间(总计)17.69s
-
工具调用
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)3.67s
响应时间(最大)3.67s
响应时间(总计)3.67s
|
| #70#70 |
Gemma 4 26B A4Bnone
|
6.2… |
Google |
$0.005… |
6.59s… |
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 7 未遵循指令: 3 超时: 1
响应时间(平均)6.59s
响应时间(最大)57.10s
响应时间(总计)118.61s
…
|
总测试数: 18
错误测试数: 11
可靠性: 不适用该模型的可靠性遥测不可用或不完整。
尝试通过率: 48.2%
不稳定测试: 3…
输出令牌: 1,783
推理令牌: 0
响应时间:平均 6.59s · 总计 118.61s · 最大 57.10s
-
反AI技巧
: 8.3
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)1.28s
响应时间(最大)2.09s
响应时间(总计)5.13s
-
编程
: 4.7
只有当某个测试的所有运行都通过时,才计为完全通过。
超时: 1
响应时间(平均)7.07s
响应时间(最大)7.07s
响应时间(总计)7.07s
-
综合
: 3.0
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)30.53s
响应时间(最大)30.53s
响应时间(总计)30.53s
-
数据解析与提取
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)1.70s
响应时间(最大)2.21s
响应时间(总计)3.41s
-
领域专项
: 3.6
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 3
响应时间(平均)2.49s
响应时间(最大)4.23s
响应时间(总计)7.48s
-
通用智能
: 4.0
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 1
响应时间(平均)3.54s
响应时间(最大)3.54s
响应时间(总计)3.54s
-
指令遵循
: 4.4
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 1 答案错误: 1
响应时间(平均)1.08s
响应时间(最大)1.65s
响应时间(总计)2.15s
-
谜题求解
: 5.7
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 1 答案错误: 1
响应时间(平均)739ms
响应时间(最大)972ms
响应时间(总计)2.22s
-
工具调用
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)57.10s
响应时间(最大)57.10s
响应时间(总计)57.10s
|
| #71#71 |
Seed-2.0-Litenone
|
6.2… |
Bytedance Seed |
$0.016… |
2.53s… |
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 10
响应时间(平均)2.53s
响应时间(最大)6.70s
响应时间(总计)45.46s
…
|
总测试数: 18
错误测试数: 10
可靠性: 不适用该模型的可靠性遥测不可用或不完整。
尝试通过率: 55.6%
不稳定测试: 5…
输出令牌: 3,129
推理令牌: 0
响应时间:平均 2.53s · 总计 45.46s · 最大 6.70s
-
反AI技巧
: 3.0
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 4
响应时间(平均)2.43s
响应时间(最大)6.70s
响应时间(总计)9.73s
-
编程
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)4.61s
响应时间(最大)4.61s
响应时间(总计)4.61s
-
综合
: 3.0
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)6.59s
响应时间(最大)6.59s
响应时间(总计)6.59s
-
数据解析与提取
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)1.82s
响应时间(最大)1.97s
响应时间(总计)3.63s
-
领域专项
: 3.6
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 3
响应时间(平均)1.33s
响应时间(最大)1.53s
响应时间(总计)4.00s
-
通用智能
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)3.45s
响应时间(最大)3.45s
响应时间(总计)3.45s
-
指令遵循
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)1.06s
响应时间(最大)1.09s
响应时间(总计)2.12s
-
谜题求解
: 5.2
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 2
响应时间(平均)2.46s
响应时间(最大)4.23s
响应时间(总计)7.37s
-
工具调用
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)3.94s
响应时间(最大)3.94s
响应时间(总计)3.94s
|
| #72#72 |
Gemini 2.5 Flashnone
|
6.2… |
Google |
$0.013… |
903ms… |
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 10 未遵循指令: 1
响应时间(平均)903ms
响应时间(最大)4.39s
响应时间(总计)16.26s
…
|
总测试数: 18
错误测试数: 11
可靠性: 不适用该模型的可靠性遥测不可用或不完整。
尝试通过率: 44.4%
不稳定测试: 2…
输出令牌: 1,726
推理令牌: 0
响应时间:平均 903ms · 总计 16.26s · 最大 4.39s
-
反AI技巧
: 3.0
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 4
响应时间(平均)582ms
响应时间(最大)844ms
响应时间(总计)2.33s
-
编程
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)1.16s
响应时间(最大)1.16s
响应时间(总计)1.16s
-
综合
: 3.0
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)4.39s
响应时间(最大)4.39s
响应时间(总计)4.39s
-
数据解析与提取
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)652ms
响应时间(最大)660ms
响应时间(总计)1.30s
-
领域专项
: 5.9
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 2
响应时间(平均)495ms
响应时间(最大)642ms
响应时间(总计)1.49s
-
通用智能
: 5.0
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)615ms
响应时间(最大)615ms
响应时间(总计)615ms
-
指令遵循
: 8.0
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)672ms
响应时间(最大)785ms
响应时间(总计)1.34s
-
谜题求解
: 5.7
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 1 答案错误: 1
响应时间(平均)576ms
响应时间(最大)700ms
响应时间(总计)1.73s
-
工具调用
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)1.91s
响应时间(最大)1.91s
响应时间(总计)1.91s
|
| #73#73 |
Qwen3.5-35B-A3Bnone
|
6.1… |
Qwen |
$0.016… |
3.82s… |
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 9 未遵循指令: 2
响应时间(平均)3.82s
响应时间(最大)47.43s
响应时间(总计)68.74s
…
|
总测试数: 18
错误测试数: 11
可靠性: 不适用该模型的可靠性遥测不可用或不完整。
尝试通过率: 50.0%
不稳定测试: 3…
输出令牌: 4,300
推理令牌: 0
响应时间:平均 3.82s · 总计 68.74s · 最大 47.43s
-
反AI技巧
: 3.4
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 4
响应时间(平均)1.43s
响应时间(最大)4.39s
响应时间(总计)5.71s
-
编程
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)2.67s
响应时间(最大)2.67s
响应时间(总计)2.67s
-
综合
: 3.0
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)47.43s
响应时间(最大)47.43s
响应时间(总计)47.43s
-
数据解析与提取
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)1.16s
响应时间(最大)1.42s
响应时间(总计)2.33s
-
领域专项
: 7.7
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)485ms
响应时间(最大)549ms
响应时间(总计)1.45s
-
通用智能
: 6.5
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 1
响应时间(平均)1.19s
响应时间(最大)1.19s
响应时间(总计)1.19s
-
指令遵循
: 6.3
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)809ms
响应时间(最大)983ms
响应时间(总计)1.62s
-
谜题求解
: 3.9
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 2 未遵循指令: 1
响应时间(平均)1.34s
响应时间(最大)2.25s
响应时间(总计)4.03s
-
工具调用
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)2.30s
响应时间(最大)2.30s
响应时间(总计)2.30s
|
| #74#74 |
DeepSeek V3.2none
|
6.0… |
DeepSeek |
$0.016… |
12.07s… |
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 8 额外格式: 2 无效工具调用: 1
响应时间(平均)12.07s
响应时间(最大)115.89s
响应时间(总计)217.28s
…
|
总测试数: 18
错误测试数: 11
可靠性: 不适用该模型的可靠性遥测不可用或不完整。
尝试通过率: 46.3%
不稳定测试: 3…
输出令牌: 8,378
推理令牌: 0
响应时间:平均 12.07s · 总计 217.28s · 最大 115.89s
-
反AI技巧
: 3.2
只有当某个测试的所有运行都通过时,才计为完全通过。
额外格式: 2 答案错误: 2
响应时间(平均)7.63s
响应时间(最大)12.26s
响应时间(总计)30.54s
-
编程
: 2.4
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)7.63s
响应时间(最大)7.63s
响应时间(总计)7.63s
-
综合
: 6.5
只有当某个测试的所有运行都通过时,才计为完全通过。
无效工具调用: 1
响应时间(平均)115.89s
响应时间(最大)115.89s
响应时间(总计)115.89s
-
数据解析与提取
: 6.3
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)9.42s
响应时间(最大)16.20s
响应时间(总计)18.84s
-
领域专项
: 3.0
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 3
响应时间(平均)1.52s
响应时间(最大)1.77s
响应时间(总计)4.55s
-
通用智能
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)2.86s
响应时间(最大)2.86s
响应时间(总计)2.86s
-
指令遵循
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)1.52s
响应时间(最大)1.99s
响应时间(总计)3.04s
-
谜题求解
: 8.5
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)7.37s
响应时间(最大)10.78s
响应时间(总计)22.10s
-
工具调用
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)11.85s
响应时间(最大)11.85s
响应时间(总计)11.85s
|
| #75#75 |
MiMo-V2-Pronone
|
6.0… |
Xiaomi |
$0.043… |
2.39s… |
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 9 未遵循指令: 2
响应时间(平均)2.39s
响应时间(最大)6.58s
响应时间(总计)43.06s
…
|
总测试数: 18
错误测试数: 11
可靠性: 不适用该模型的可靠性遥测不可用或不完整。
尝试通过率: 48.2%
不稳定测试: 3…
输出令牌: 2,320
推理令牌: 0
响应时间:平均 2.39s · 总计 43.06s · 最大 6.58s
-
反AI技巧
: 3.5
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 4
响应时间(平均)1.80s
响应时间(最大)2.62s
响应时间(总计)7.19s
-
编程
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)3.82s
响应时间(最大)3.82s
响应时间(总计)3.82s
-
综合
: 3.0
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)6.58s
响应时间(最大)6.58s
响应时间(总计)6.58s
-
数据解析与提取
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)1.39s
响应时间(最大)1.42s
响应时间(总计)2.78s
-
领域专项
: 5.3
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 2
响应时间(平均)1.78s
响应时间(最大)2.49s
响应时间(总计)5.34s
-
通用智能
: 4.3
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 1
响应时间(平均)2.44s
响应时间(最大)2.44s
响应时间(总计)2.44s
-
指令遵循
: 6.5
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)2.51s
响应时间(最大)2.95s
响应时间(总计)5.02s
-
谜题求解
: 6.0
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 1 答案错误: 1
响应时间(平均)1.83s
响应时间(最大)2.15s
响应时间(总计)5.50s
-
工具调用
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)4.39s
响应时间(最大)4.39s
响应时间(总计)4.39s
|
| #76#76 |
GPT-5.4none
|
5.9… |
OpenAI |
$0.104… |
1.51s… |
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 10 未遵循指令: 1
响应时间(平均)1.51s
响应时间(最大)2.95s
响应时间(总计)27.21s
…
|
总测试数: 18
错误测试数: 11
可靠性: 不适用该模型的可靠性遥测不可用或不完整。
尝试通过率: 42.6%
不稳定测试: 2…
输出令牌: 2,317
推理令牌: 0
响应时间:平均 1.51s · 总计 27.21s · 最大 2.95s
-
反AI技巧
: 3.2
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 4
响应时间(平均)1.21s
响应时间(最大)2.58s
响应时间(总计)4.85s
-
编程
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)2.95s
响应时间(最大)2.95s
响应时间(总计)2.95s
-
综合
: 3.0
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)2.89s
响应时间(最大)2.89s
响应时间(总计)2.89s
-
数据解析与提取
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)1.04s
响应时间(最大)1.06s
响应时间(总计)2.08s
-
领域专项
: 5.3
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 2
响应时间(平均)1.07s
响应时间(最大)1.54s
响应时间(总计)3.22s
-
通用智能
: 4.4
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)1.78s
响应时间(最大)1.78s
响应时间(总计)1.78s
-
指令遵循
: 6.5
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)1.07s
响应时间(最大)1.17s
响应时间(总计)2.15s
-
谜题求解
: 5.6
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 1 答案错误: 1
响应时间(平均)1.52s
响应时间(最大)1.82s
响应时间(总计)4.56s
-
工具调用
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)2.75s
响应时间(最大)2.75s
响应时间(总计)2.75s
|
| #77#77 |
Qwen3.5-27Bnone
|
5.9… |
Qwen |
$0.016… |
1.74s… |
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 10 未遵循指令: 2
响应时间(平均)1.74s
响应时间(最大)9.39s
响应时间(总计)31.32s
…
|
总测试数: 18
错误测试数: 12
可靠性: 不适用该模型的可靠性遥测不可用或不完整。
尝试通过率: 38.9%
不稳定测试: 2…
输出令牌: 3,545
推理令牌: 0
响应时间:平均 1.74s · 总计 31.32s · 最大 9.39s
-
反AI技巧
: 4.8
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 3
响应时间(平均)788ms
响应时间(最大)1.34s
响应时间(总计)3.15s
-
编程
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)2.51s
响应时间(最大)2.51s
响应时间(总计)2.51s
-
综合
: 2.8
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)9.39s
响应时间(最大)9.39s
响应时间(总计)9.39s
-
数据解析与提取
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)1.43s
响应时间(最大)1.45s
响应时间(总计)2.86s
-
领域专项
: 3.0
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 3
响应时间(平均)540ms
响应时间(最大)649ms
响应时间(总计)1.62s
-
通用智能
: 5.0
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 1
响应时间(平均)2.51s
响应时间(最大)2.51s
响应时间(总计)2.51s
-
指令遵循
: 4.8
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 2
响应时间(平均)815ms
响应时间(最大)973ms
响应时间(总计)1.63s
-
谜题求解
: 6.7
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 1 答案错误: 1
响应时间(平均)1.37s
响应时间(最大)2.23s
响应时间(总计)4.12s
-
工具调用
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)3.54s
响应时间(最大)3.54s
响应时间(总计)3.54s
|
| #78#78 |
gpt-oss-120bmedium
|
5.8… |
OpenAI |
$0.011… |
16.08s… |
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 7 未遵循指令: 4
响应时间(平均)16.08s
响应时间(最大)50.92s
响应时间(总计)176.88s
…
|
总测试数: 18
错误测试数: 11
可靠性: 不适用该模型的可靠性遥测不可用或不完整。
尝试通过率: 51.9%
不稳定测试: 6…
输出令牌: 13,493
推理令牌: 36,879
响应时间:平均 16.08s · 总计 176.88s · 最大 50.92s
-
反AI技巧
: 6.7
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 1 答案错误: 1
响应时间(平均)10.21s
响应时间(最大)19.76s
响应时间(总计)20.43s
-
编程
: 4.3
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)26.33s
响应时间(最大)26.33s
响应时间(总计)26.33s
-
综合
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)31.18s
响应时间(最大)31.18s
响应时间(总计)31.18s
-
数据解析与提取
: 6.4
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)1.98s
响应时间(最大)1.98s
响应时间(总计)1.98s
-
领域专项
: 2.9
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 3
响应时间(平均)50.92s
响应时间(最大)50.92s
响应时间(总计)50.92s
-
通用智能
: 4.3
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 1
响应时间(平均)7.90s
响应时间(最大)7.90s
响应时间(总计)7.90s
-
指令遵循
: 9.9
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)7.63s
响应时间(最大)7.63s
响应时间(总计)7.63s
-
谜题求解
: 3.2
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 2 答案错误: 1
响应时间(平均)11.80s
响应时间(最大)12.60s
响应时间(总计)23.61s
-
工具调用
: 9.8
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)6.91s
响应时间(最大)6.91s
响应时间(总计)6.91s
|
| #79#79 |
Kimi K2.6none
|
5.8… |
Moonshot AI |
$0.038… |
2.05s… |
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 8 未遵循指令: 3
响应时间(平均)2.05s
响应时间(最大)6.65s
响应时间(总计)36.93s
…
|
总测试数: 18
错误测试数: 11
可靠性: 不适用该模型的可靠性遥测不可用或不完整。
尝试通过率: 42.6%
不稳定测试: 2…
输出令牌: 2,973
推理令牌: 0
响应时间:平均 2.05s · 总计 36.93s · 最大 6.65s
-
反AI技巧
: 4.6
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 3
响应时间(平均)1.39s
响应时间(最大)2.96s
响应时间(总计)5.56s
-
编程
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)6.65s
响应时间(最大)6.65s
响应时间(总计)6.65s
-
综合
: 3.0
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)3.38s
响应时间(最大)3.38s
响应时间(总计)3.38s
-
数据解析与提取
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)1.32s
响应时间(最大)1.39s
响应时间(总计)2.64s
-
领域专项
: 5.3
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 2
响应时间(平均)1.48s
响应时间(最大)1.85s
响应时间(总计)4.45s
-
通用智能
: 5.4
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 1
响应时间(平均)1.55s
响应时间(最大)1.55s
响应时间(总计)1.55s
-
指令遵循
: 6.5
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)1.64s
响应时间(最大)1.80s
响应时间(总计)3.28s
-
谜题求解
: 3.4
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 2 答案错误: 1
响应时间(平均)1.66s
响应时间(最大)1.81s
响应时间(总计)4.98s
-
工具调用
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)4.46s
响应时间(最大)4.46s
响应时间(总计)4.46s
|
| #80#80 |
MiMo-V2.5-Pronone
|
5.8… |
Xiaomi |
$0.033… |
1.51s… |
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 10 未遵循指令: 2
响应时间(平均)1.51s
响应时间(最大)3.54s
响应时间(总计)27.21s
…
|
总测试数: 18
错误测试数: 12
可靠性: 不适用该模型的可靠性遥测不可用或不完整。
尝试通过率: 46.3%
不稳定测试: 4…
输出令牌: 2,451
推理令牌: 0
响应时间:平均 1.51s · 总计 27.21s · 最大 3.54s
-
反AI技巧
: 2.9
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 4
响应时间(平均)1.29s
响应时间(最大)2.83s
响应时间(总计)5.18s
-
编程
: 6.4
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)2.39s
响应时间(最大)2.39s
响应时间(总计)2.39s
-
综合
: 3.0
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 1
响应时间(平均)3.54s
响应时间(最大)3.54s
响应时间(总计)3.54s
-
数据解析与提取
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)1.32s
响应时间(最大)1.42s
响应时间(总计)2.64s
-
领域专项
: 5.3
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 2
响应时间(平均)877ms
响应时间(最大)904ms
响应时间(总计)2.63s
-
通用智能
: 4.5
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)1.53s
响应时间(最大)1.53s
响应时间(总计)1.53s
-
指令遵循
: 6.4
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)1.03s
响应时间(最大)1.10s
响应时间(总计)2.06s
-
谜题求解
: 6.7
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 1 答案错误: 1
响应时间(平均)1.32s
响应时间(最大)1.66s
响应时间(总计)3.95s
-
工具调用
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)3.30s
响应时间(最大)3.30s
响应时间(总计)3.30s
|
| #81#81 |
Qwen3.5-122B-A10Bnone
|
5.7… |
Qwen |
$0.022… |
3.69s… |
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 11 未遵循指令: 1
响应时间(平均)3.69s
响应时间(最大)46.00s
响应时间(总计)66.50s
…
|
总测试数: 18
错误测试数: 12
可靠性: 不适用该模型的可靠性遥测不可用或不完整。
尝试通过率: 38.9%
不稳定测试: 2…
输出令牌: 3,341
推理令牌: 0
响应时间:平均 3.69s · 总计 66.50s · 最大 46.00s
-
反AI技巧
: 4.8
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 3
响应时间(平均)1.59s
响应时间(最大)3.60s
响应时间(总计)6.38s
-
编程
: 4.3
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)3.44s
响应时间(最大)3.44s
响应时间(总计)3.44s
-
综合
: 3.0
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)46.00s
响应时间(最大)46.00s
响应时间(总计)46.00s
-
数据解析与提取
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)1.01s
响应时间(最大)1.06s
响应时间(总计)2.02s
-
领域专项
: 5.3
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 2
响应时间(平均)465ms
响应时间(最大)492ms
响应时间(总计)1.39s
-
通用智能
: 5.0
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 1
响应时间(平均)1.12s
响应时间(最大)1.12s
响应时间(总计)1.12s
-
指令遵循
: 4.5
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 2
响应时间(平均)585ms
响应时间(最大)715ms
响应时间(总计)1.17s
-
谜题求解
: 5.4
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 2
响应时间(平均)982ms
响应时间(最大)1.36s
响应时间(总计)2.95s
-
工具调用
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)2.04s
响应时间(最大)2.04s
响应时间(总计)2.04s
|
| #82#82 |
MiniMax M2.5medium
|
5.7… |
Minimax |
$0.250… |
39.65s… |
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 5 超时: 4 未遵循指令: 3 无效工具调用: 1
响应时间(平均)39.65s
响应时间(最大)237.27s
响应时间(总计)396.47s
…
|
总测试数: 18
错误测试数: 13
可靠性: 不适用该模型的可靠性遥测不可用或不完整。
尝试通过率: 57.4%
不稳定测试: 10…
输出令牌: 107,044
推理令牌: 206,422
响应时间:平均 39.65s · 总计 396.47s · 最大 237.27s
-
反AI技巧
: 7.9
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 1 超时: 1
响应时间(平均)20.82s
响应时间(最大)32.42s
响应时间(总计)41.63s
-
编程
: 3.0
只有当某个测试的所有运行都通过时,才计为完全通过。
超时: 1
响应时间(平均)0ms
响应时间(最大)0ms
响应时间(总计)0ms
-
综合
: 4.5
只有当某个测试的所有运行都通过时,才计为完全通过。
无效工具调用: 1
响应时间(平均)60.39s
响应时间(最大)60.39s
响应时间(总计)60.39s
-
数据解析与提取
: 4.6
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 2
响应时间(平均)7.48s
响应时间(最大)7.48s
响应时间(总计)7.48s
-
领域专项
: 2.9
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 2 超时: 1
响应时间(平均)237.27s
响应时间(最大)237.27s
响应时间(总计)237.27s
-
通用智能
: 3.8
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 1
响应时间(平均)6.63s
响应时间(最大)6.63s
响应时间(总计)6.63s
-
指令遵循
: 8.1
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 1
响应时间(平均)4.64s
响应时间(最大)4.64s
响应时间(总计)4.64s
-
谜题求解
: 5.3
只有当某个测试的所有运行都通过时,才计为完全通过。
超时: 1 答案错误: 1
响应时间(平均)11.54s
响应时间(最大)17.37s
响应时间(总计)23.08s
-
工具调用
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)15.35s
响应时间(最大)15.35s
响应时间(总计)15.35s
|
| #83#83 |
Hunter Alphanone已归档模型:该模型将不再更新,也不会在新测试中继续测试。
|
5.7… |
OpenRouter |
$0.000… |
4.58s… |
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 9 未遵循指令: 2 API 错误: 1
响应时间(平均)4.58s
响应时间(最大)15.17s
响应时间(总计)77.92s
…
|
总测试数: 18
错误测试数: 12
可靠性: 不适用该模型的可靠性遥测不可用或不完整。
尝试通过率: 46.3%
不稳定测试: 4…
输出令牌: 2,278
推理令牌: 0
响应时间:平均 4.58s · 总计 77.92s · 最大 15.17s
-
反AI技巧
: 3.5
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 4
响应时间(平均)3.81s
响应时间(最大)6.85s
响应时间(总计)15.23s
-
编程
: 3.0
只有当某个测试的所有运行都通过时,才计为完全通过。
API 错误: 1
响应时间(平均)0ms
响应时间(最大)0ms
响应时间(总计)0ms
-
综合
: 3.0
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)15.17s
响应时间(最大)15.17s
响应时间(总计)15.17s
-
数据解析与提取
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)8.49s
响应时间(最大)14.02s
响应时间(总计)16.98s
-
领域专项
: 5.3
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 2
响应时间(平均)2.33s
响应时间(最大)2.94s
响应时间(总计)6.99s
-
通用智能
: 6.1
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 1
响应时间(平均)2.71s
响应时间(最大)2.71s
响应时间(总计)2.71s
-
指令遵循
: 6.4
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)2.82s
响应时间(最大)2.92s
响应时间(总计)5.65s
-
谜题求解
: 5.8
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 1 答案错误: 1
响应时间(平均)3.06s
响应时间(最大)3.50s
响应时间(总计)9.19s
-
工具调用
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)6.02s
响应时间(最大)6.02s
响应时间(总计)6.02s
|
| #84#84 |
Mistral Small 4medium
|
5.7… |
Mistral |
$0.034… |
5.64s… |
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 8 未遵循指令: 3 API 错误: 2
响应时间(平均)5.64s
响应时间(最大)30.49s
响应时间(总计)101.52s
…
|
总测试数: 18
错误测试数: 13
可靠性: 不适用该模型的可靠性遥测不可用或不完整。
尝试通过率: 50.0%
不稳定测试: 7…
输出令牌: 15,084
推理令牌: 39,408
响应时间:平均 5.64s · 总计 101.52s · 最大 30.49s
-
反AI技巧
: 5.6
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 3
响应时间(平均)2.67s
响应时间(最大)5.03s
响应时间(总计)10.66s
-
编程
: 6.7
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)30.49s
响应时间(最大)30.49s
响应时间(总计)30.49s
-
综合
: 3.0
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)25.25s
响应时间(最大)25.25s
响应时间(总计)25.25s
-
数据解析与提取
: 7.3
只有当某个测试的所有运行都通过时,才计为完全通过。
API 错误: 1
响应时间(平均)1.23s
响应时间(最大)1.96s
响应时间(总计)2.46s
-
领域专项
: 5.3
只有当某个测试的所有运行都通过时,才计为完全通过。
API 错误: 1 答案错误: 1
响应时间(平均)6.11s
响应时间(最大)13.72s
响应时间(总计)18.34s
-
通用智能
: 4.8
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 1
响应时间(平均)2.05s
响应时间(最大)2.05s
响应时间(总计)2.05s
-
指令遵循
: 7.3
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)1.38s
响应时间(最大)1.61s
响应时间(总计)2.75s
-
谜题求解
: 3.4
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 2 答案错误: 1
响应时间(平均)2.00s
响应时间(最大)2.60s
响应时间(总计)6.01s
-
工具调用
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)3.50s
响应时间(最大)3.50s
响应时间(总计)3.50s
|
| #85#85 |
GLM 4.7 Flashnone
|
5.6… |
Z.ai |
$0.003… |
3.35s… |
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 10 未遵循指令: 2 无效工具调用: 1
响应时间(平均)3.35s
响应时间(最大)7.05s
响应时间(总计)36.90s
…
|
总测试数: 18
错误测试数: 13
可靠性: 不适用该模型的可靠性遥测不可用或不完整。
尝试通过率: 37.0%
不稳定测试: 3…
输出令牌: 2,489
推理令牌: 0
响应时间:平均 3.35s · 总计 36.90s · 最大 7.05s
-
反AI技巧
: 5.2
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 3
响应时间(平均)5.51s
响应时间(最大)6.59s
响应时间(总计)11.02s
-
编程
: 6.4
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)5.57s
响应时间(最大)5.57s
响应时间(总计)5.57s
-
综合
: 3.0
只有当某个测试的所有运行都通过时,才计为完全通过。
无效工具调用: 1
响应时间(平均)3.22s
响应时间(最大)3.22s
响应时间(总计)3.22s
-
数据解析与提取
: 7.3
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)4.82s
响应时间(最大)4.82s
响应时间(总计)4.82s
-
领域专项
: 7.7
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)744ms
响应时间(最大)744ms
响应时间(总计)744ms
-
通用智能
: 4.0
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)1.59s
响应时间(最大)1.59s
响应时间(总计)1.59s
-
指令遵循
: 6.5
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)888ms
响应时间(最大)888ms
响应时间(总计)888ms
-
谜题求解
: 4.4
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 2 答案错误: 1
响应时间(平均)1.00s
响应时间(最大)1.12s
响应时间(总计)2.00s
-
工具调用
: 2.8
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)7.05s
响应时间(最大)7.05s
响应时间(总计)7.05s
|
| #86#86 |
GLM 5.1none
|
5.6… |
Z.ai |
$0.053… |
4.33s… |
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 10 未遵循指令: 2 无效工具调用: 1
响应时间(平均)4.33s
响应时间(最大)32.57s
响应时间(总计)78.02s
…
|
总测试数: 18
错误测试数: 13
可靠性: 不适用该模型的可靠性遥测不可用或不完整。
尝试通过率: 37.0%
不稳定测试: 4…
输出令牌: 3,720
推理令牌: 0
响应时间:平均 4.33s · 总计 78.02s · 最大 32.57s
-
反AI技巧
: 4.0
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 4
响应时间(平均)2.11s
响应时间(最大)3.94s
响应时间(总计)8.46s
-
编程
: 5.1
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)9.79s
响应时间(最大)9.79s
响应时间(总计)9.79s
-
综合
: 2.8
只有当某个测试的所有运行都通过时,才计为完全通过。
无效工具调用: 1
响应时间(平均)32.57s
响应时间(最大)32.57s
响应时间(总计)32.57s
-
数据解析与提取
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)1.08s
响应时间(最大)1.62s
响应时间(总计)2.15s
-
领域专项
: 2.9
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 3
响应时间(平均)1.99s
响应时间(最大)3.99s
响应时间(总计)5.98s
-
通用智能
: 5.0
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)790ms
响应时间(最大)790ms
响应时间(总计)790ms
-
指令遵循
: 8.3
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 1
响应时间(平均)1.58s
响应时间(最大)1.69s
响应时间(总计)3.17s
-
谜题求解
: 5.7
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 1 答案错误: 1
响应时间(平均)1.48s
响应时间(最大)2.09s
响应时间(总计)4.44s
-
工具调用
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)10.68s
响应时间(最大)10.68s
响应时间(总计)10.68s
|
| #87#87 |
Kimi K2.5none
|
5.5… |
Moonshot AI |
$0.017… |
13.37s… |
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 12
响应时间(平均)13.37s
响应时间(最大)42.13s
响应时间(总计)147.05s
…
|
总测试数: 18
错误测试数: 12
可靠性: 不适用该模型的可靠性遥测不可用或不完整。
尝试通过率: 40.7%
不稳定测试: 3…
输出令牌: 2,659
推理令牌: 0
响应时间:平均 13.37s · 总计 147.05s · 最大 42.13s
-
反AI技巧
: 3.6
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 4
响应时间(平均)6.24s
响应时间(最大)11.38s
响应时间(总计)12.48s
-
编程
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)38.78s
响应时间(最大)38.78s
响应时间(总计)38.78s
-
综合
: 2.8
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)19.16s
响应时间(最大)19.16s
响应时间(总计)19.16s
-
数据解析与提取
: 7.3
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)42.13s
响应时间(最大)42.13s
响应时间(总计)42.13s
-
领域专项
: 5.3
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 2
响应时间(平均)4.38s
响应时间(最大)4.38s
响应时间(总计)4.38s
-
通用智能
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)4.00s
响应时间(最大)4.00s
响应时间(总计)4.00s
-
指令遵循
: 6.5
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)2.67s
响应时间(最大)2.67s
响应时间(总计)2.67s
-
谜题求解
: 3.1
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 3
响应时间(平均)4.73s
响应时间(最大)7.81s
响应时间(总计)9.45s
-
工具调用
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)13.99s
响应时间(最大)13.99s
响应时间(总计)13.99s
|
| #88#88 |
GLM 5 Turbonone
|
5.5… |
Z.ai |
$0.032… |
2.94s… |
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 10 未遵循指令: 2
响应时间(平均)2.94s
响应时间(最大)8.21s
响应时间(总计)52.98s
…
|
总测试数: 18
错误测试数: 12
可靠性: 不适用该模型的可靠性遥测不可用或不完整。
尝试通过率: 37.0%
不稳定测试: 2…
输出令牌: 1,775
推理令牌: 0
响应时间:平均 2.94s · 总计 52.98s · 最大 8.21s
-
反AI技巧
: 3.0
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 4
响应时间(平均)2.84s
响应时间(最大)4.15s
响应时间(总计)11.35s
-
编程
: 5.3
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)3.93s
响应时间(最大)3.93s
响应时间(总计)3.93s
-
综合
: 3.0
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)4.89s
响应时间(最大)4.89s
响应时间(总计)4.89s
-
数据解析与提取
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)2.47s
响应时间(最大)2.48s
响应时间(总计)4.95s
-
领域专项
: 5.3
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 2
响应时间(平均)1.97s
响应时间(最大)2.65s
响应时间(总计)5.92s
-
通用智能
: 4.2
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 1
响应时间(平均)2.18s
响应时间(最大)2.18s
响应时间(总计)2.18s
-
指令遵循
: 6.5
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)2.13s
响应时间(最大)2.53s
响应时间(总计)4.27s
-
谜题求解
: 5.5
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 1 答案错误: 1
响应时间(平均)2.43s
响应时间(最大)2.69s
响应时间(总计)7.28s
-
工具调用
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)8.21s
响应时间(最大)8.21s
响应时间(总计)8.21s
|
| #89#89 |
Ling 2.6 Flashnone
|
5.4… |
Inclusionai |
$0.000… |
11.33s… |
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 7 未遵循指令: 3 无效工具调用: 2
响应时间(平均)11.33s
响应时间(最大)35.34s
响应时间(总计)203.88s
…
|
总测试数: 18
错误测试数: 12
可靠性: 不适用该模型的可靠性遥测不可用或不完整。
尝试通过率: 35.2%
不稳定测试: 1…
输出令牌: 3,338
推理令牌: 0
响应时间:平均 11.33s · 总计 203.88s · 最大 35.34s
-
反AI技巧
: 6.5
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 2
响应时间(平均)12.30s
响应时间(最大)16.60s
响应时间(总计)49.20s
-
编程
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)11.21s
响应时间(最大)11.21s
响应时间(总计)11.21s
-
综合
: 3.0
只有当某个测试的所有运行都通过时,才计为完全通过。
无效工具调用: 1
响应时间(平均)35.34s
响应时间(最大)35.34s
响应时间(总计)35.34s
-
数据解析与提取
: 6.5
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)8.48s
响应时间(最大)12.71s
响应时间(总计)16.96s
-
领域专项
: 3.0
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 3
响应时间(平均)4.94s
响应时间(最大)7.65s
响应时间(总计)14.81s
-
通用智能
: 4.1
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 1
响应时间(平均)11.85s
响应时间(最大)11.85s
响应时间(总计)11.85s
-
指令遵循
: 9.8
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)5.52s
响应时间(最大)8.19s
响应时间(总计)11.04s
-
谜题求解
: 2.9
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 2 答案错误: 1
响应时间(平均)11.55s
响应时间(最大)17.06s
响应时间(总计)34.66s
-
工具调用
: 3.0
只有当某个测试的所有运行都通过时,才计为完全通过。
无效工具调用: 1
响应时间(平均)18.80s
响应时间(最大)18.80s
响应时间(总计)18.80s
|
| #90#90 |
Trinity Large Previewnone
|
5.3… |
Arcee AI |
$0.000… |
5.07s… |
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 11 未遵循指令: 2
响应时间(平均)5.07s
响应时间(最大)39.47s
响应时间(总计)91.23s
…
|
总测试数: 18
错误测试数: 13
可靠性: 不适用该模型的可靠性遥测不可用或不完整。
尝试通过率: 29.6%
不稳定测试: 1…
输出令牌: 1,985
推理令牌: 0
响应时间:平均 5.07s · 总计 91.23s · 最大 39.47s
-
反AI技巧
: 3.0
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 4
响应时间(平均)3.02s
响应时间(最大)8.17s
响应时间(总计)12.07s
-
编程
: 6.3
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)39.47s
响应时间(最大)39.47s
响应时间(总计)39.47s
-
综合
: 3.0
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 1
响应时间(平均)8.91s
响应时间(最大)8.91s
响应时间(总计)8.91s
-
数据解析与提取
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)3.26s
响应时间(最大)4.66s
响应时间(总计)6.52s
-
领域专项
: 5.3
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 2
响应时间(平均)877ms
响应时间(最大)894ms
响应时间(总计)2.63s
-
通用智能
: 4.4
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 1
响应时间(平均)2.86s
响应时间(最大)2.86s
响应时间(总计)2.86s
-
指令遵循
: 4.1
只有当某个测试的所有运行都通过时,才计为完全通过。
未遵循指令: 1 答案错误: 1
响应时间(平均)1.09s
响应时间(最大)1.23s
响应时间(总计)2.19s
-
谜题求解
: 5.4
只有当某个测试的所有运行都通过时,才计为完全通过。
答案错误: 2
响应时间(平均)3.30s
响应时间(最大)4.81s
响应时间(总计)9.91s
-
工具调用
: 10.0
只有当某个测试的所有运行都通过时,才计为完全通过。
没有失败答案。
响应时间(平均)6.67s
响应时间(最大)6.67s
响应时间(总计)6.67s
|