#35
Qwen: Qwen3.5-Flash
Qwen · qwen/qwen3.5-flash-02-23::none
平均スコア
3.63
結果あたりのコスト
0.084
一貫性
8.32
合計コスト
$0.003
正解テスト
3/14
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
誤答テスト数
11
試行ごとの合格率: 33.3%
不安定なテスト
3
応答時間: 平均 3.55s · 合計 49.72s · 最大 13.73s
不正解: 7
API エラー: 2
指示に従っていない: 2
スコア上位モデル
最初のモデルを選択し、次に2つ目のモデルをクリックして並列比較ページを開きます。
カテゴリ内訳
| カテゴリ | 平均スコア | 一貫性 | 正解テスト |
|---|---|---|---|
| Anti-AI Tricks | 2.34 | 7.76 | 0/3 |
| Data parsing and extraction | 5.38 | 5.81 | 1/2 |
| Domain specific | 4.00 | 7.21 | 1/3 |
| Instructions following | 3.50 | 9.99 | 0/2 |
| Puzzle Solving | 1.34 | 10.00 | 0/3 |
| Tool Calling | 10.00 | 10.00 | 1/1 |