AI BENCHY Compare

DeepSeek: DeepSeek V4 Flash vs OpenAI: gpt-oss-120b

概要

DeepSeek V4 Flash vs gpt-oss-120b の benchmark 比較: gpt-oss-120b が平均スコアでリードし、6.1 vs 5.0 です。 DeepSeek V4 Flash の benchmark コストが低く、$0.008 vs $0.013 です。 gpt-oss-120b の方が高速で、22.28s vs 26.75s です、成功率は 30.2% vs 52.4% です。

おすすめモデル: gpt-oss-120b - この比較で最も高いスコア（6.1）を出し、全 2 モデルの中でコストと応答時間のバランスも最良です。

ベンチマークは AI BENCHY テストスイートから次の日時に生成: 2026-06-04

指標	DeepSeek V4 Flash DeepSeek V4 Flash none リリース: 2026-04-24	gpt-oss-120b gpt-oss-120b medium リリース: 2025-08-05 無料で利用可能

指標	DeepSeek V4 Flash DeepSeek V4 Flash none リリース: 2026-04-24	gpt-oss-120b gpt-oss-120b medium リリース: 2025-08-05 無料で利用可能
スコア	5.0	6.1
順位	#139	#99
信頼性	10.0	10.0
一貫性	8.9	8.0
正解テスト
試行ごとの合格率	30.2%	52.4%
不安定なテスト	3	5
総実行回数	63	63
結果あたりのコスト	0.203	0.141
合計コスト	$0.008	$0.013
入力価格	$0.099 / 1M	$0.039 / 1M
出力価格	$0.197 / 1M	$0.180 / 1M
合計入力トークン	50,127	39,084
出力トークン	13,710	20,013
推論トークン	0	50,233
応答時間（平均）	26.75s	22.28s
応答時間（最大）	111.96s	68.16s
応答時間（合計）	561.82s	311.96s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#139 DeepSeek V4 Flash

none

Cost: $0.004
Time: 157.6s
Tokens: 11,297 tok

#99 gpt-oss-120b

medium

Cost: $0.001
Time: 26.7s
Tokens: 555 tok

スコア上位モデル

スコア vs 総コスト

応答時間（平均）

スコア vs 応答時間（平均）

合計出力トークン

スコア vs 合計出力トークン

カテゴリ内訳

反AIトリック	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
DeepSeek V4 Flash	3.0	10.0	0.0%	0		20.18s	540	174	0
gpt-oss-120b	6.7	9.9	50.0%	0		10.21s	1,314	3,518	2,177

コーディング	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
DeepSeek V4 Flash	4.2	7.4	11.1%	1		17.13s	7,279	9,717	0
gpt-oss-120b	5.9	7.0	55.6%	1		38.37s	7,782	3,365	11,973

複合	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
DeepSeek V4 Flash	4.5	2.1	66.7%	1		111.96s	24,398	2,664	0
gpt-oss-120b	10.0	10.0	100.0%	0		31.18s	11,535	694	5,072

データ解析と抽出	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
DeepSeek V4 Flash	10.0	10.0	100.0%	0		23.79s	7,290	195	0
gpt-oss-120b	6.4	5.9	66.7%	1		1.98s	7,476	241	1,114

ドメイン特化	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
DeepSeek V4 Flash	5.3	10.0	33.3%	0		19.73s	666	18	0
gpt-oss-120b	2.9	4.4	22.2%	2		50.92s	1,266	6,784	20,606

汎用知能	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
DeepSeek V4 Flash	4.2	9.9	0.0%	0		23.74s	471	67	0
gpt-oss-120b	4.3	10.0	0.0%	0		7.90s	659	107	387

指示追従	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
DeepSeek V4 Flash	6.5	10.0	50.0%	0		17.54s	627	321	0
gpt-oss-120b	9.9	10.0	100.0%	0		7.63s	1,036	126	1,799

パズル解決	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
DeepSeek V4 Flash	3.1	7.3	11.1%	1		23.72s	594	207	0
gpt-oss-120b	5.3	7.2	44.4%	1		21.71s	1,190	1,790	2,264

ツール呼び出し	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
DeepSeek V4 Flash	10.0	10.0	100.0%	0		77.93s	8,079	327	0
gpt-oss-120b	9.8	10.0	100.0%	0		6.91s	6,514	287	1,083

雑学	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
DeepSeek V4 Flash	3.0	10.0	0.0%	0		3.07s	183	20	0
gpt-oss-120b	3.0	10.0	0.0%	0		26.51s	312	3,101	3,758

クイック比較

比較ペアを切り替え