AI BENCHY Compare

Qwen: Qwen3.6 27B vs StepFun: Step 3.7 Flash

ベンチマークは AI BENCHY テストスイートから次の日時に生成: 2026-06-04

指標	Qwen3.6 27B Qwen3.6 27B medium リリース: 2026-04-20	Step 3.7 Flash Step 3.7 Flash high リリース: 2026-05-29

指標	Qwen3.6 27B Qwen3.6 27B medium リリース: 2026-04-20	Step 3.7 Flash Step 3.7 Flash high リリース: 2026-05-29
スコア	6.8	7.0
順位	#78	#71
信頼性	10.0	10.0
一貫性	8.2	8.2
正解テスト
試行ごとの合格率	60.3%	63.5%
不安定なテスト	5	4
総実行回数	63	63
結果あたりのコスト	3.361	10.434
合計コスト	$0.444	$1.148
入力価格	$0.290 / 1M	$0.200 / 1M
出力価格	$3.200 / 1M	$1.150 / 1M
合計入力トークン	39,376	38,391
出力トークン	16,189	991,355
推論トークン	122,521	0
応答時間（平均）	59.71s	64.46s
応答時間（最大）	168.22s	364.99s
応答時間（合計）	1254.01s	1353.57s

スコア上位モデル

スコア vs 総コスト

応答時間（平均）

スコア vs 応答時間（平均）

合計出力トークン

スコア vs 合計出力トークン

カテゴリ内訳

反AIトリック	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Qwen3.6 27B	8.3	10.0	75.0%	0		12.62s	453	582	4,311
Step 3.7 Flash	10.0	10.0	100.0%	0		13.40s	696	42,656	0

コーディング	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Qwen3.6 27B	7.7	10.0	66.7%	0		142.99s	5,051	7,968	43,367
Step 3.7 Flash	4.0	6.0	22.2%	1		206.21s	6,057	327,340	0

複合	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Qwen3.6 27B	7.0	3.7	66.7%	1		83.07s	15,104	2,088	14,689
Step 3.7 Flash	10.0	10.0	100.0%	0		13.01s	13,638	8,802	0

データ解析と抽出	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Qwen3.6 27B	3.5	1.4	50.0%	2		37.30s	7,778	568	9,404
Step 3.7 Flash	10.0	10.0	100.0%	0		14.72s	7,368	23,113	0

ドメイン特化	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Qwen3.6 27B	2.9	7.2	11.1%	1		73.38s	662	3,510	20,352
Step 3.7 Flash	4.1	4.4	44.5%	2		149.64s	783	410,502	0

汎用知能	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Qwen3.6 27B	6.5	3.4	66.7%	1		39.53s	516	81	3,045
Step 3.7 Flash	5.5	10.0	0.0%	0		4.17s	510	2,862	0

指示追従	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Qwen3.6 27B	10.0	10.0	100.0%	0		37.96s	699	346	6,548
Step 3.7 Flash	9.8	10.0	100.0%	0		1.52s	705	2,010	0

パズル解決	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Qwen3.6 27B	7.7	10.0	66.7%	0		61.14s	696	255	12,044
Step 3.7 Flash	5.3	7.2	44.4%	1		10.22s	711	25,422	0

ツール呼び出し	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Qwen3.6 27B	10.0	10.0	100.0%	0		16.88s	8,213	390	2,954
Step 3.7 Flash	10.0	10.0	100.0%	0		2.79s	7,701	1,172	0

雑学	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Qwen3.6 27B	3.0	10.0	0.0%	0		80.99s	204	401	5,807
Step 3.7 Flash	3.0	10.0	0.0%	0		149.34s	222	147,476	0

クイック比較

比較ペアを切り替え

GPT-5.4 NanomediumvsStep 3.7 Flashhigh Claude Opus 4.6mediumvsStep 3.7 Flashhigh Claude Opus 4.8nonevsStep 3.7 Flashhigh MiniMax M3mediumvsStep 3.7 Flashhigh Claude Sonnet 4.6nonevsQwen3.6 27Bmedium DeepSeek V3.2mediumvsStep 3.7 Flashhigh Qwen3.5-35B-A3BmediumvsStep 3.7 Flashhigh Step 3.7 FlashhighvsGrok 4.20medium Seed-2.0-MinimediumvsStep 3.7 Flashhigh Step 3.7 FlashhighvsMiMo-V2-Flashmedium GPT-5.3 ChatnonevsStep 3.7 Flashhigh Qwen3.6 Max PreviewnonevsStep 3.7 Flashhigh