AI BENCHY Compare

Qwen: Qwen3.6 35B A3B vs xAI: Grok 4.3

ベンチマークは AI BENCHY テストスイートから次の日時に生成: 2026-05-22

指標	Qwen3.6 35B A3B Qwen3.6 35B A3B medium リリース: 2026-04-20	Grok 4.3 Grok 4.3 medium リリース: 2026-05-01

指標	Qwen3.6 35B A3B Qwen3.6 35B A3B medium リリース: 2026-04-20	Grok 4.3 Grok 4.3 medium リリース: 2026-05-01
スコア	7.8	7.8
順位	#30	#31
信頼性	9.4	10.0
一貫性	9.1	8.4
正解テスト
試行ごとの合格率	70.4%	75.0%
不安定なテスト	2	4
総実行回数	60	60
結果あたりのコスト	1.050	4.562
合計コスト	$0.126	$0.593
????	$0.150 / 1M	$1.250 / 1M
????	$1.000 / 1M	$2.500 / 1M
出力トークン	18,325	1,485
推論トークン	115,750	214,928
応答時間（平均）	17.26s	49.23s
応答時間（最大）	86.11s	216.69s
応答時間（合計）	310.77s	984.54s

スコア上位モデル

スコア vs 総コスト

応答時間（平均）

スコア vs 応答時間（平均）

合計出力トークン

スコア vs 合計出力トークン

カテゴリ内訳

反AIトリック	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Qwen3.6 35B A3B	10.0	10.0	100.0%	0		6.02s	1,154	12,385
Grok 4.3	10.0	10.0	100.0%	0		8.83s	88	8,207

コーディング	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Qwen3.6 35B A3B	6.6	10.0	50.0%	0		59.35s	6,601	22,535
Grok 4.3	7.4	6.5	66.7%	1		55.26s	532	24,554

複合	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Qwen3.6 35B A3B	0.0	0.0	0.0%	0		0ms	0	0
Grok 4.3	10.0	10.0	100.0%	0		63.99s	234	15,301

データ解析と抽出	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Qwen3.6 35B A3B	10.0	10.0	100.0%	0		12.99s	2,591	9,968
Grok 4.3	10.0	10.0	100.0%	0		18.97s	180	9,546

ドメイン特化	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Qwen3.6 35B A3B	5.3	7.2	44.4%	1		22.50s	6,193	39,116
Grok 4.3	5.3	7.2	44.4%	1		181.74s	14	111,300

汎用知能	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Qwen3.6 35B A3B	4.4	9.9	0.0%	0		8.66s	129	4,569
Grok 4.3	5.4	2.5	66.7%	1		24.70s	70	5,020

指示追従	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Qwen3.6 35B A3B	10.0	10.0	100.0%	0		7.50s	219	7,404
Grok 4.3	9.8	10.0	100.0%	0		18.58s	57	8,713

パズル解決	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Qwen3.6 35B A3B	7.9	7.5	77.8%	1		5.98s	676	9,447
Grok 4.3	5.9	7.2	55.6%	1		22.53s	128	14,686

ツール呼び出し	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Qwen3.6 35B A3B	0.0	0.0	0.0%	0		0ms	0	0
Grok 4.3	10.0	10.0	100.0%	0		17.66s	168	4,615

雑学	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Qwen3.6 35B A3B	3.0	10.0	0.0%	0		32.90s	762	10,326
Grok 4.3	3.0	10.0	0.0%	0		44.47s	14	12,986

クイック比較

比較ペアを切り替え

Qwen3.7 MaxnonevsGrok 4.3medium Gemini 3 Flash PreviewnonevsGrok 4.3medium Gemini 3 Flash PreviewnonevsQwen3.6 35B A3Bmedium Gemini 3.1 Flash Lite PreviewlowvsGrok 4.3medium Gemini 3.5 FlashminimalvsQwen3.6 35B A3Bmedium GPT-5.2 ChatnonevsGrok 4.3medium Gemini 3.1 Flash Lite PreviewlowvsQwen3.6 35B A3Bmedium Gemini 3.5 FlashminimalvsGrok 4.3medium GPT-5.2 ChatnonevsQwen3.6 35B A3Bmedium Gemini 3.1 Flash Lite PreviewnonevsGrok 4.3medium Gemini 3.1 Flash Lite PreviewnonevsQwen3.6 35B A3Bmedium Gemini 3.1 Flash LitelowvsGrok 4.3medium