ナビゲーション
AI BENCHY
比較する チャート 方法論
❤️ Made by XCS
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

OpenAI: GPT-5.4 vs Qwen: Qwen3.5 Plus 2026-02-15

比較する:

ベンチマークは AI BENCHY テストスイートから次の日時に生成: 2026-03-06

指標 OpenAI: GPT-5.4 medium リリース: 2026-03-05 Qwen: Qwen3.5 Plus 2026-02-15 none リリース: 2026-02-15
順位 #9 #29
平均スコア 8.0 6.2
一貫性 8.5 9.6
結果あたりのコスト 6.601 0.172
合計コスト $0.793 $0.016
正解テスト
試行ごとの合格率 83.3% 58.3%
不安定なテスト 3 1
総実行回数 48 (16 x 3) 48 (16 x 3)
出力トークン 1,756 2,015
推論トークン 46,642 0
応答時間(平均) 20.05s 2.65s
応答時間(最大) 100.41s 6.65s
応答時間(合計) 320.87s 26.52s

スコア上位モデル

スコア vs 総コスト

応答時間(平均)

平均スコア vs 応答時間(平均)

カテゴリ内訳

反AIトリック スコア 一貫性 試行ごとの合格率 不安定なテスト 正解テスト 応答時間(平均) 出力トークン 推論トークン
OpenAI: GPT-5.4 10.0 10.0 100.0% 0 5.02s 216 1,466
Qwen: Qwen3.5 Plus 2026-02-15 4.0 10.0 33.3% 0 2.74s 514 0
複合 スコア 一貫性 試行ごとの合格率 不安定なテスト 正解テスト 応答時間(平均) 出力トークン 推論トークン
OpenAI: GPT-5.4 10.0 10.0 100.0% 0 20.57s 301 3,543
Qwen: Qwen3.5 Plus 2026-02-15 10.0 10.0 0.0% 0 6.65s 314 0
データ解析と抽出 スコア 一貫性 試行ごとの合格率 不安定なテスト 正解テスト 応答時間(平均) 出力トークン 推論トークン
OpenAI: GPT-5.4 9.9 10.0 100.0% 0 5.32s 234 804
Qwen: Qwen3.5 Plus 2026-02-15 9.9 10.0 100.0% 0 1.89s 243 0
ドメイン特化 スコア 一貫性 試行ごとの合格率 不安定なテスト 正解テスト 応答時間(平均) 出力トークン 推論トークン
OpenAI: GPT-5.4 4.0 7.2 44.4% 1 74.27s 61 34,748
Qwen: Qwen3.5 Plus 2026-02-15 4.0 10.0 33.3% 0 1.17s 17 0
汎用知能 スコア 一貫性 試行ごとの合格率 不安定なテスト 正解テスト 応答時間(平均) 出力トークン 推論トークン
OpenAI: GPT-5.4 5.0 3.1 33.3% 1 4.92s 145 321
Qwen: Qwen3.5 Plus 2026-02-15 4.0 3.0 33.3% 1 2.26s 117 0
指示追従 スコア 一貫性 試行ごとの合格率 不安定なテスト 正解テスト 応答時間(平均) 出力トークン 推論トークン
OpenAI: GPT-5.4 10.0 10.0 100.0% 0 3.11s 93 897
Qwen: Qwen3.5 Plus 2026-02-15 10.0 10.0 100.0% 0 1.67s 72 0
Puzzle Solving スコア 一貫性 試行ごとの合格率 不安定なテスト 正解テスト 応答時間(平均) 出力トークン 推論トークン
OpenAI: GPT-5.4 7.0 7.2 88.9% 1 9.13s 442 3,832
Qwen: Qwen3.5 Plus 2026-02-15 7.0 10.0 66.7% 0 2.82s 516 0
ツール呼び出し スコア 一貫性 試行ごとの合格率 不安定なテスト 正解テスト 応答時間(平均) 出力トークン 推論トークン
OpenAI: GPT-5.4 10.0 10.0 100.0% 0 13.28s 264 1,031
Qwen: Qwen3.5 Plus 2026-02-15 10.0 10.0 100.0% 0 3.33s 222 0

クイック比較

比較ペアを切り替え