AI BENCHY
比較する チャート
❤️ Made by XCS
Your ad here

#40

Mercury 2

Inception · リリース: 2026-02-24 · inception/mercury-2::medium

平均スコア

48

結果あたりのコスト

0.726

一貫性

83

合計コスト

$0.044

正解テスト

6

テストは、その全実行が合格した場合にのみ完全合格とみなされます。

誤答テスト数

9

試行ごとの合格率: 51.1%

不安定なテスト

3

応答時間: 平均 2.47s · 合計 34.56s · 最大 14.63s

不正解: 5 指示に従っていない: 3 API エラー: 1

スコア上位モデル

最初のモデルを選択し、次に2つ目のモデルをクリックして並列比較ページを開きます。

クイック比較

カテゴリ内訳

カテゴリ 平均スコア 一貫性 正解テスト
Anti-AI Tricks 73 98 2/3
Combined 100 100 1/1
Data parsing and extraction 55 59 1/2
Domain specific 100 72 0/3
Instructions following 55 100 1/2
Puzzle Solving 17 75 0/3
Tool Calling 100 100 1/1