AI BENCHY
排行榜
比较
图表
展示
语言:
🇸🇦 Arabic
🇧🇩 Bangla
🇩🇪 German
🇺🇸 English
🇪🇸 Spanish
🇫🇷 French
🇮🇳 Hindi
🇮🇩 Indonesian
🇯🇵 Japanese
🇮🇳 Marathi
🇳🇱 Dutch
🇵🇹 Portuguese
🇷🇴 Romanian
🇷🇺 Russian
🇰🇪 Swahili
🇵🇰 Urdu
🇨🇳 Chinese
主题
❤️ Made by XCS
导航
排行榜
比较
图表
展示
语言
🇸🇦 Arabic
🇧🇩 Bangla
🇩🇪 German
🇺🇸 English
🇪🇸 Spanish
🇫🇷 French
🇮🇳 Hindi
🇮🇩 Indonesian
🇯🇵 Japanese
🇮🇳 Marathi
🇳🇱 Dutch
🇵🇹 Portuguese
🇷🇴 Romanian
🇷🇺 Russian
🇰🇪 Swahili
🇵🇰 Urdu
🇨🇳 Chinese
主题
❤️ Made by XCS
Advertise here
AD
Track all your projects in one dashboard.
Self-hosted web analytics!
Get 📊
stats
, 🔥
heatmaps
and 👀
recordings
in one self-hosted dashboard.
See where visitors come from and why they don't convert. Get 📊
stats
, 🔥
heatmaps
and
session recordings
in your own, self-hosted dashboard!
uxwizz.com
排行榜
→
综合
→
未遵循指令
AI BENCHY 分类失败
综合:未遵循指令
综合
反AI技巧
通用智能
指令遵循
编程
数据解析与提取
谜题求解
领域专项
工具调用
常识问答
综合
综合
:
答案错误
无效工具调用
API 错误
无答案
超时
未遵循指令
额外格式
未遵循指令
未遵循指令
看看哪些 AI 模型在 综合 上最容易遇到 未遵循指令,更快找出薄弱点。
显示的模型数
1
失败总数
1
受影响最多的模型
MiMo-V2.5-Pro
1
失败原因
答案错误
53
无效工具调用
20
API 错误
13
无答案
2
超时
2
未遵循指令
1
额外格式
1
分类
谜题求解
82
通用智能
72
反AI技巧
30
编程
16
指令遵循
12
工具调用
6
综合
1
领域专项
1
搜索
筛选
0
1/1
筛选模型
重置筛选
总成本
×
$0.000-$0.100
$0.000
$0.100
分数范围
×
1-10
1
10
响应时间(平均) (ms)
×
<
测试正确
×
0-1
0
1
没有模型匹配当前搜索和筛选条件。
排名
模型
公司
未遵循指令 次数
↓
分类得分
↕
总成本
↕
测试正确
↕
响应时间(平均)
↕
#119
MiMo-V2.5-Pro
none
Xiaomi
1
3.0
$0.017
0/1
3.54s
总测试数
1
错误测试数
1
总成本
$0.017
响应时间(平均)
3.54s
按 未遵循指令 次数 排名的顶级模型
未遵循指令 次数 对比 分数
按 响应时间(平均) 排名的顶级模型
按 预估浪费成本 排名的顶级模型