AI BENCHY
比較する
❤️ Made by XCS

モデル名

Qwen: Qwen3.5 Plus 2026-02-15

ベンチマークは Aibenchy テストスイートから次の日時に生成 : 2026/02/19

指標 Qwen: Qwen3.5 Plus 2026-02-15
順位#4
企業Qwen
Score 8.42
一貫性 9.30
結果あたりのコスト 2.3151
合計コスト $0.23151
正解テスト 10/12
試行ごとの合格率 86.1%
不安定なテスト 1
出力トークン 802
推論トークン 93,972

カテゴリ内訳

カテゴリ 完全合格テスト Score 一貫性 試行ごとの合格率 不安定なテスト 推論スコア コスト
Anti-AI Tricks 2/2 10.00 10.00 100.0% 0 9.17 $0.00855
Data parsing and extraction 2/2 10.00 10.00 100.0% 0 9.61 $0.03952
Domain specific 1/3 4.00 7.21 44.4% 1 7.28 $0.10564
Instructions following 2/2 9.50 9.99 100.0% 0 9.33 $0.02275
Puzzle Solving 3/3 10.00 10.00 100.0% 0 8.28 $0.05508

比較対象モデル

Qwen: Qwen3.5 Plus 2026-02-15 と比較...

#3 · Google

Google: Gemini 3 Pro Preview

推論(medium)

Score: 8.42

一貫性: 10.00

試行ごとの合格率: 83.3%

不安定なテスト: 0

結果あたりのコスト: 0.8028

正解テスト: 10/12

合計コスト: $0.08029

比較する

#5 · OpenAI

OpenAI: GPT-5.2

推論(medium)

Score: 7.92

一貫性: 9.30

試行ごとの合格率: 80.6%

不安定なテスト: 1

結果あたりのコスト: 2.2838

正解テスト: 9/12

合計コスト: $0.20554

比較する

#2 · Google

Google: Gemini 3.1 Pro Preview

推論(medium)

Score: 9.25

一貫性: 10.00

試行ごとの合格率: 91.7%

不安定なテスト: 0

結果あたりのコスト: 2.5543

正解テスト: 11/12

合計コスト: $0.28097

比較する

クイック比較

Qwen: Qwen3.5 Plus 2026-02-15 と比較...