AI BENCHY Compare

Qwen: Qwen3.5-122B-A10B vs StepFun: Step 3.7 Flash

ベンチマークは AI BENCHY テストスイートから次の日時に生成: 2026-05-29

指標	Qwen3.5-122B-A10B Qwen3.5-122B-A10B medium リリース: 2026-02-24	Step 3.7 Flash Step 3.7 Flash high リリース: 2026-05-29

指標	Qwen3.5-122B-A10B Qwen3.5-122B-A10B medium リリース: 2026-02-24	Step 3.7 Flash Step 3.7 Flash high リリース: 2026-05-29
スコア	7.7	7.1
順位	#43	#74
信頼性	10.0	10.0
一貫性	8.8	8.2
正解テスト
試行ごとの合格率	71.7%	65.8%
不安定なテスト	3	4
総実行回数	60	60
結果あたりのコスト	5.031	8.723
合計コスト	$0.655	$0.960
入力価格	$0.260 / 1M	$0.200 / 1M
出力価格	$2.080 / 1M	$1.150 / 1M
出力トークン	26,166	828,084
推論トークン	213,524	0
応答時間（平均）	39.40s	49.43s
応答時間（最大）	168.16s	192.75s
応答時間（合計）	788.00s	988.58s

スコア上位モデル

スコア vs 総コスト

応答時間（平均）

スコア vs 応答時間（平均）

合計出力トークン

スコア vs 合計出力トークン

カテゴリ内訳

反AIトリック	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		9.75s	269	16,835
Step 3.7 Flash	10.0	10.0	100.0%	0		13.40s	42,656	0

コーディング	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Qwen3.5-122B-A10B	4.1	5.8	33.3%	1		119.57s	8,036	45,074
Step 3.7 Flash	3.6	4.6	25.0%	1		126.82s	164,069	0

複合	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		107.79s	483	11,337
Step 3.7 Flash	10.0	10.0	100.0%	0		13.01s	8,802	0

データ解析と抽出	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		23.41s	270	16,558
Step 3.7 Flash	10.0	10.0	100.0%	0		14.72s	23,113	0

ドメイン特化	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Qwen3.5-122B-A10B	2.9	7.2	11.1%	1		63.40s	15,537	64,889
Step 3.7 Flash	4.1	4.4	44.5%	2		149.64s	410,502	0

汎用知能	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Qwen3.5-122B-A10B	3.4	2.2	33.3%	1		34.11s	66	7,592
Step 3.7 Flash	5.5	10.0	0.0%	0		4.17s	2,862	0

指示追従	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		9.88s	77	7,372
Step 3.7 Flash	9.8	10.0	100.0%	0		1.52s	2,010	0

パズル解決	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		17.89s	284	27,575
Step 3.7 Flash	5.3	7.2	44.4%	1		10.22s	25,422	0

ツール呼び出し	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		4.60s	322	1,226
Step 3.7 Flash	10.0	10.0	100.0%	0		2.79s	1,172	0

雑学	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Qwen3.5-122B-A10B	3.0	10.0	0.0%	0		52.87s	822	15,066
Step 3.7 Flash	3.0	10.0	0.0%	0		149.34s	147,476	0

クイック比較

比較ペアを切り替え

GPT-5 MinimediumvsStep 3.7 Flashhigh GPT-5.4 NanomediumvsStep 3.7 Flashhigh Gemini 3 Flash PreviewnonevsQwen3.5-122B-A10Bmedium Seed-2.0-MinimediumvsStep 3.7 Flashhigh Qwen3.6 Max PreviewnonevsStep 3.7 Flashhigh DeepSeek V4 Flashhigh無料で利用可能vsQwen3.5-122B-A10Bmedium Claude Opus 4.6mediumvsStep 3.7 Flashhigh Gemini 3.1 Flash Lite PreviewlowvsQwen3.5-122B-A10Bmedium Step 3.7 FlashhighvsMiMo-V2-Flashmedium Ring-2.6-1TnonevsStep 3.7 Flashhigh Ring-2.6-1TmediumvsStep 3.7 Flashhigh Qwen3.5-35B-A3BmediumvsStep 3.7 Flashhigh