ナビゲーション
AI BENCHY
Advertise here

AI BENCHY Compare

OpenAI: gpt-oss-120b vs Qwen: Qwen3.6 35B A3B

概要

gpt-oss-120b vs Qwen3.6 35B A3B の benchmark 比較: gpt-oss-120b が平均スコアでリードし、5.4 vs 4.6 です。 gpt-oss-120b の benchmark コストが低く、$0.010 vs $0.031 です。 Qwen3.6 35B A3B の方が高速で、3.73s vs 21.61s です、成功率は 38.6% vs 30.2% です。

おすすめモデル: gpt-oss-120b - ここでは最高スコア(5.4)で、Qwen3.6 35B A3B より約 3.2 倍低コストです。

ベンチマークは AI BENCHY テストスイートから次の日時に生成: 2026-06-10

指標 gpt-oss-120b gpt-oss-120b none リリース: 2025-08-05 無料で利用可能 Qwen3.6 35B A3B Qwen3.6 35B A3B none リリース: 2026-04-20
スコア 5.4 4.6
順位 #127 #154
信頼性 10.0 10.0
一貫性 9.1 8.0
正解テスト
試行ごとの合格率 38.6% 30.2%
不安定なテスト 2 5
総実行回数 57 63
結果あたりのコスト 0.168 0.754
合計コスト $0.010 $0.031
入力価格 $0.039 / 1M $0.140 / 1M
出力価格 $0.180 / 1M $1.000 / 1M
合計入力トークン 9,081 19,329
出力トークン 51,664 27,755
推論トークン 0 0
応答時間(平均) 21.61s 3.73s
応答時間(最大) 113.71s 22.52s
応答時間(合計) 345.79s 70.86s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#127 gpt-oss-120b

none
No showcase result has been generated for this model yet.
Cost
$0.000
Time
-
Tokens
0 tok

#154 Qwen3.6 35B A3B

none
Cost
$0.008
Time
30.1s
Tokens
6,317 tok

スコア上位モデル

スコア vs 総コスト

応答時間(平均)

スコア vs 応答時間(平均)

合計出力トークン

スコア vs 合計出力トークン

カテゴリ内訳

反AIトリック スコア 一貫性 試行ごとの合格率 不安定なテスト 正解テスト 応答時間(平均) 入力トークン 出力トークン 推論トークン
gpt-oss-120b 6.5 10.0 50.0% 0 32.84s 1,336 8,676 0
Qwen3.6 35B A3B 3.6 7.6 16.7% 1 2.10s 696 1,571 0
コーディング スコア 一貫性 試行ごとの合格率 不安定なテスト 正解テスト 応答時間(平均) 入力トークン 出力トークン 推論トークン
gpt-oss-120b 4.3 1.1 66.7% 1 9.57s 901 3,232 0
Qwen3.6 35B A3B 5.5 10.0 33.3% 0 8.77s 7,911 11,161 0
複合 スコア 一貫性 試行ごとの合格率 不安定なテスト 正解テスト 応答時間(平均) 入力トークン 出力トークン 推論トークン
gpt-oss-120b 3.0 10.0 0.0% 0 0ms 0 0 0
Qwen3.6 35B A3B 3.0 10.0 0.0% 0 0ms 0 0 0
データ解析と抽出 スコア 一貫性 試行ごとの合格率 不安定なテスト 正解テスト 応答時間(平均) 入力トークン 出力トークン 推論トークン
gpt-oss-120b 6.5 10.0 50.0% 0 7.12s 2,421 598 0
Qwen3.6 35B A3B 10.0 10.0 100.0% 0 1.46s 7,788 248 0
ドメイン特化 スコア 一貫性 試行ごとの合格率 不安定なテスト 正解テスト 応答時間(平均) 入力トークン 出力トークン 推論トークン
gpt-oss-120b 3.0 10.0 0.0% 0 34.98s 1,294 29,483 0
Qwen3.6 35B A3B 3.5 4.4 33.3% 2 7.45s 781 11,381 0
汎用知能 スコア 一貫性 試行ごとの合格率 不安定なテスト 正解テスト 応答時間(平均) 入力トークン 出力トークン 推論トークン
gpt-oss-120b 4.8 10.0 0.0% 0 10.79s 584 615 0
Qwen3.6 35B A3B 4.4 3.0 33.3% 1 3.51s 520 1,545 0
指示追従 スコア 一貫性 試行ごとの合格率 不安定なテスト 正解テスト 応答時間(平均) 入力トークン 出力トークン 推論トークン
gpt-oss-120b 9.8 10.0 100.0% 0 5.06s 1,043 1,940 0
Qwen3.6 35B A3B 6.2 5.8 66.7% 1 1.86s 709 1,264 0
パズル解決 スコア 一貫性 試行ごとの合格率 不安定なテスト 正解テスト 応答時間(平均) 入力トークン 出力トークン 推論トークン
gpt-oss-120b 6.0 7.2 55.6% 1 8.21s 1,188 3,982 0
Qwen3.6 35B A3B 3.2 9.9 0.0% 0 1.07s 714 573 0
ツール呼び出し スコア 一貫性 試行ごとの合格率 不安定なテスト 正解テスト 応答時間(平均) 入力トークン 出力トークン 推論トークン
gpt-oss-120b 3.0 10.0 0.0% 0 0ms 0 0 0
Qwen3.6 35B A3B 3.0 10.0 0.0% 0 0ms 0 0 0
雑学 スコア 一貫性 試行ごとの合格率 不安定なテスト 正解テスト 応答時間(平均) 入力トークン 出力トークン 推論トークン
gpt-oss-120b 3.0 10.0 0.0% 0 47.29s 314 3,138 0
Qwen3.6 35B A3B 3.0 10.0 0.0% 0 414ms 210 12 0

クイック比較

比較ペアを切り替え