AI BENCHY Compare

OpenAI: gpt-oss-120b vs Qwen: Qwen3.5-9B

概要

gpt-oss-120b vs Qwen3.5-9B の benchmark 比較: gpt-oss-120b が平均スコアでリードし、5.4 vs 4.6 です。 Qwen3.5-9B の benchmark コストが低く、$0.006 vs $0.010 です。 Qwen3.5-9B の方が高速で、1.89s vs 21.61s です、成功率は 38.6% vs 20.6% です。

おすすめモデル: Qwen3.5-9B - 総合的に最も良い選択です。競争力のあるスコア（4.6）、gpt-oss-120b より低いコスト、バランスの取れた応答時間があります。

ベンチマークは AI BENCHY テストスイートから次の日時に生成: 2026-06-10

指標	gpt-oss-120b gpt-oss-120b none リリース: 2025-08-05 無料で利用可能	Qwen3.5-9B Qwen3.5-9B none リリース: 2026-03-02

指標	gpt-oss-120b gpt-oss-120b none リリース: 2025-08-05 無料で利用可能	Qwen3.5-9B Qwen3.5-9B none リリース: 2026-03-02
スコア	5.4	4.6
順位	#127	#155
信頼性	10.0	10.0
一貫性	9.1	9.7
正解テスト
試行ごとの合格率	38.6%	20.6%
不安定なテスト	2	1
総実行回数	57	63
結果あたりのコスト	0.168	0.123
合計コスト	$0.010	$0.006
入力価格	$0.039 / 1M	$0.100 / 1M
出力価格	$0.180 / 1M	$0.150 / 1M
合計入力トークン	9,081	48,041
出力トークン	51,664	3,952
推論トークン	0	0
応答時間（平均）	21.61s	1.89s
応答時間（最大）	113.71s	6.03s
応答時間（合計）	345.79s	39.68s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#127 gpt-oss-120b

none

No showcase result has been generated for this model yet.

Cost: $0.000
Time: -
Tokens: 0 tok

#155 Qwen3.5-9B

none

Invalid SVG

Cost: $0.000
Time: 300.0s
Tokens: 0 tok

スコア上位モデル

スコア vs 総コスト

応答時間（平均）

スコア vs 応答時間（平均）

合計出力トークン

スコア vs 合計出力トークン

カテゴリ内訳

反AIトリック	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
gpt-oss-120b	6.5	10.0	50.0%	0		32.84s	1,336	8,676	0
Qwen3.5-9B	3.1	9.9	0.0%	0		1.71s	696	582	0

コーディング	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
gpt-oss-120b	4.3	1.1	66.7%	1		9.57s	901	3,232	0
Qwen3.5-9B	3.9	7.8	11.1%	1		5.60s	7,913	1,042	0

複合	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
gpt-oss-120b	3.0	10.0	0.0%	0		0ms	0	0	0
Qwen3.5-9B	3.0	10.0	0.0%	0		5.91s	20,397	1,255	0

データ解析と抽出	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
gpt-oss-120b	6.5	10.0	50.0%	0		7.12s	2,421	598	0
Qwen3.5-9B	10.0	10.0	100.0%	0		847ms	7,788	249	0

ドメイン特化	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
gpt-oss-120b	3.0	10.0	0.0%	0		34.98s	1,294	29,483	0
Qwen3.5-9B	3.0	10.0	0.0%	0		464ms	789	24	0

汎用知能	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
gpt-oss-120b	4.8	10.0	0.0%	0		10.79s	584	615	0
Qwen3.5-9B	4.4	9.9	0.0%	0		552ms	522	99	0

指示追従	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
gpt-oss-120b	9.8	10.0	100.0%	0		5.06s	1,043	1,940	0
Qwen3.5-9B	6.5	10.0	50.0%	0		514ms	711	75	0

パズル解決	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
gpt-oss-120b	6.0	7.2	55.6%	1		8.21s	1,188	3,982	0
Qwen3.5-9B	3.2	10.0	0.0%	0		621ms	714	347	0

ツール呼び出し	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
gpt-oss-120b	3.0	10.0	0.0%	0		0ms	0	0	0
Qwen3.5-9B	10.0	10.0	100.0%	0		1.27s	8,301	273	0

雑学	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
gpt-oss-120b	3.0	10.0	0.0%	0		47.29s	314	3,138	0
Qwen3.5-9B	3.0	10.0	0.0%	0		2.32s	210	6	0

クイック比較

比較ペアを切り替え

MiniMax M2.5mediumvsgpt-oss-120bnone無料で利用可能 MiniMax M2.7mediumvsgpt-oss-120bnone無料で利用可能 Mistral Small 4mediumvsgpt-oss-120bnone無料で利用可能 Cobuddymediumvsgpt-oss-120bnone無料で利用可能 Qwen3.5-9BnonevsGLM 4.7 Flashmedium Nemotron 3 Supermedium無料で利用可能vsgpt-oss-120bnone無料で利用可能 DeepSeek V4 Prohighvsgpt-oss-120bnone無料で利用可能 Mistral Small 4mediumvsQwen3.5-9Bnone MiniMax M2.7mediumvsQwen3.5-9Bnone MiniMax M2.5mediumvsQwen3.5-9Bnone gpt-oss-120bnone無料で利用可能vsQwen3 Coder Nextmedium Gemini 3.1 Flash Liteminimalvsgpt-oss-120bnone無料で利用可能