AI BENCHY Compare

OpenAI: GPT-5.2 vs Qwen: Qwen3.7 Plus

概要

GPT-5.2 vs Qwen3.7 Plus の benchmark 比較: GPT-5.2 が平均スコアでリードし、8.4 vs 8.2 です。 Qwen3.7 Plus の benchmark コストが低く、$0.177 vs $0.548 です。 GPT-5.2 の方が高速で、16.88s vs 38.95s です、成功率は 71.4% vs 77.8% です。

おすすめモデル: Qwen3.7 Plus - スコアはここでの最高値に近く（8.2 vs 8.4）、GPT-5.2 より約 3.1 倍低コストです。

ベンチマークは AI BENCHY テストスイートから次の日時に生成: 2026-06-18

指標	GPT-5.2 GPT-5.2 medium リリース: 2025-12-11	Qwen3.7 Plus Qwen3.7 Plus medium リリース: 2026-06-03

指標	GPT-5.2 GPT-5.2 medium リリース: 2025-12-11	Qwen3.7 Plus Qwen3.7 Plus medium リリース: 2026-06-03
スコア	8.4	8.2
順位	#22	#25
信頼性	10.0	10.0
一貫性	8.4	9.1
正解テスト
試行ごとの合格率	71.4%	77.8%
不安定なテスト	4	2
総実行回数	63	63
結果あたりのコスト	4.209	1.474
合計コスト	$0.548	$0.177
入力価格	$1.750 / 1M	$0.320 / 1M
出力価格	$14.000 / 1M	$1.280 / 1M
合計入力トークン	33,967	40,939
出力トークン	2,901	2,125
推論トークン	31,932	125,754
応答時間（平均）	16.88s	38.95s
応答時間（最大）	77.80s	178.04s
応答時間（合計）	236.34s	817.85s

生成ショーケース

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#22 GPT-5.2

medium

コスト: $0.047
時間: 49.2s
トークン: 3,396 tok

#25 Qwen3.7 Plus

medium

コスト: $0.018
時間: 193.2s
トークン: 10,821 tok

スコア上位モデル

スコア vs 総コスト

応答時間（平均）

スコア vs 応答時間（平均）

合計出力トークン

スコア vs 合計出力トークン

カテゴリ内訳

反AIトリック	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
GPT-5.2	6.5	8.0	58.3%	1		7.81s	606	567	2,002
Qwen3.7 Plus	10.0	10.0	100.0%	0		8.58s	672	195	5,065

コーディング	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
GPT-5.2	10.0	10.0	100.0%	0		22.73s	7,302	511	11,912
Qwen3.7 Plus	6.1	6.6	55.6%	1		108.60s	6,472	414	43,576

複合	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
GPT-5.2	10.0	10.0	100.0%	0		14.06s	11,019	291	1,757
Qwen3.7 Plus	10.0	10.0	100.0%	0		65.24s	14,934	366	10,132

データ解析と抽出	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
GPT-5.2	10.0	10.0	100.0%	0		3.15s	7,140	234	420
Qwen3.7 Plus	10.0	10.0	100.0%	0		21.75s	7,782	270	6,713

ドメイン特化	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
GPT-5.2	5.9	7.2	55.6%	1		77.80s	473	42	10,342
Qwen3.7 Plus	3.6	7.2	22.2%	1		45.35s	771	57	27,073

汎用知能	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
GPT-5.2	3.7	9.7	0.0%	0		4.32s	477	162	269
Qwen3.7 Plus	10.0	10.0	100.0%	0		25.48s	516	123	3,998

指示追従	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
GPT-5.2	9.9	10.0	100.0%	0		3.12s	660	94	614
Qwen3.7 Plus	10.0	10.0	100.0%	0		16.13s	699	102	5,013

パズル解決	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
GPT-5.2	7.5	7.3	77.8%	1		5.80s	642	735	924
Qwen3.7 Plus	10.0	10.0	100.0%	0		16.38s	696	280	7,312

ツール呼び出し	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
GPT-5.2	4.7	1.6	66.7%	1		10.30s	5,453	239	469
Qwen3.7 Plus	10.0	10.0	100.0%	0		15.02s	8,193	292	1,831

雑学	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
GPT-5.2	3.0	10.0	0.0%	0		28.18s	195	26	3,223
Qwen3.7 Plus	3.0	10.0	0.0%	0		91.07s	204	26	15,041

クイック比較

比較ペアを切り替え

DeepSeek V4 FlashhighvsQwen3.7 Plusmedium DeepSeek V4 FlashhighvsGPT-5.2medium GPT-5.2 ChatnonevsQwen3.7 Plusmedium Qwen3.7 PlusmediumvsStep 3.7 Flashlow DeepSeek V4 ProhighvsQwen3.7 Plusmedium GPT-5.3 ChatnonevsQwen3.7 Plusmedium GPT-5.2mediumvsStep 3.7 Flashlow DeepSeek V4 ProhighvsGPT-5.2medium Gemini 3 Flash PreviewlowvsQwen3.7 Plusmedium Gemini 3.5 FlashlowvsGPT-5.2medium Claude Sonnet 4.6nonevsQwen3.7 Plusmedium Claude Opus 4.8nonevsQwen3.7 Plusmedium