ナビゲーション
AI BENCHY
比較する チャート 方法論
❤️ Made by XCS
Your ad here

AI BENCHY Compare

OpenAI: GPT-5.4 vs Qwen: Qwen3.5-122B-A10B

比較する:

ベンチマークは AI BENCHY テストスイートから次の日時に生成: 2026-03-06

指標 OpenAI: GPT-5.4 medium リリース: 2026-03-05 Qwen: Qwen3.5-122B-A10B medium リリース: 2026-02-24
平均スコア 8.2 8.2
順位 #7 #6
正解テスト
一貫性 8.9 9.4
結果あたりのコスト 6.533 3.962
合計コスト $0.784 $0.476
試行ごとの合格率 86.7% 82.2%
不安定なテスト 2 1
common.totalRuns 45 (15 x 3) 45 (15 x 3)
出力トークン 1,611 17,226
推論トークン 46,321 138,033
応答時間(平均) 21.06s 29.45s
応答時間(最大) 100.41s 119.29s
応答時間(合計) 315.95s 441.71s

スコア上位モデル

スコア vs 総コスト

応答時間(平均)

平均スコア vs 応答時間(平均)

カテゴリ内訳

反AIトリック スコア 一貫性 試行ごとの合格率 不安定なテスト 正解テスト 応答時間(平均) 出力トークン 推論トークン
OpenAI: GPT-5.4 10.0 10.0 100.0% 0 5.02s 216 1,466
Qwen: Qwen3.5-122B-A10B 10.0 10.0 100.0% 0 6.99s 248 10,486
複合 スコア 一貫性 試行ごとの合格率 不安定なテスト 正解テスト 応答時間(平均) 出力トークン 推論トークン
OpenAI: GPT-5.4 10.0 10.0 100.0% 0 20.57s 301 3,543
Qwen: Qwen3.5-122B-A10B 10.0 10.0 100.0% 0 107.79s 483 11,337
データ解析と抽出 スコア 一貫性 試行ごとの合格率 不安定なテスト 正解テスト 応答時間(平均) 出力トークン 推論トークン
OpenAI: GPT-5.4 9.9 10.0 100.0% 0 5.32s 234 804
Qwen: Qwen3.5-122B-A10B 9.9 10.0 100.0% 0 23.41s 270 16,558
ドメイン特化 スコア 一貫性 試行ごとの合格率 不安定なテスト 正解テスト 応答時間(平均) 出力トークン 推論トークン
OpenAI: GPT-5.4 4.0 7.2 44.4% 1 74.27s 61 34,748
Qwen: Qwen3.5-122B-A10B 10.0 7.2 11.1% 1 63.40s 15,537 64,889
指示追従 スコア 一貫性 試行ごとの合格率 不安定なテスト 正解テスト 応答時間(平均) 出力トークン 推論トークン
OpenAI: GPT-5.4 10.0 10.0 100.0% 0 3.11s 93 897
Qwen: Qwen3.5-122B-A10B 10.0 10.0 100.0% 0 9.88s 77 7,372
Puzzle Solving スコア 一貫性 試行ごとの合格率 不安定なテスト 正解テスト 応答時間(平均) 出力トークン 推論トークン
OpenAI: GPT-5.4 7.0 7.2 88.9% 1 9.13s 442 3,832
Qwen: Qwen3.5-122B-A10B 10.0 10.0 100.0% 0 17.18s 289 26,165
ツール呼び出し スコア 一貫性 試行ごとの合格率 不安定なテスト 正解テスト 応答時間(平均) 出力トークン 推論トークン
OpenAI: GPT-5.4 10.0 10.0 100.0% 0 13.28s 264 1,031
Qwen: Qwen3.5-122B-A10B 10.0 10.0 100.0% 0 4.60s 322 1,226

クイック比較

比較ペアを切り替え