AI BENCHY Compare

Google: Gemini 3.1 Pro Preview vs Qwen: Qwen3.5-9B

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-04-26

Метрика	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Релиз: 2026-02-19	Qwen3.5-9B Qwen3.5-9B medium Релиз: 2026-03-02

Метрика	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Релиз: 2026-02-19	Qwen3.5-9B Qwen3.5-9B medium Релиз: 2026-03-02
Оценка	9.6	4.4
Ранг	#2	#114
Надежность	Н/Д	Н/Д
Стабильность	10.0	7.2
Тестов верно
Доля успешных попыток	94.4%	33.3%
Нестабильные тесты	0	6
Всего запусков	54	54
Стоимость за результат	3.400	0.976
Общая стоимость	$0.578	$0.030
???? ?????	$2.000 / 1M	$0.100 / 1M
???? ??????	$12.000 / 1M	$0.150 / 1M
Выходные токены	1,932	24,291
Токены рассуждений	40,542	172,597
Время ответа (среднее)	15.96s	73.64s
Время ответа (макс.)	40.61s	226.38s
Время ответа (суммарно)	175.52s	1104.60s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.90s	112	3,218
Qwen3.5-9B	5.1	5.8	50.0%	2		34.44s	2,621	12,411

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		19.88s	405	4,201
Qwen3.5-9B	2.6	10.0	0.0%	0		135.61s	6,150	31,393

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	9.5	10.0	100.0%	0		40.61s	432	9,281
Qwen3.5-9B	3.0	10.0	0.0%	0		0ms	0	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.72s	279	3,904
Qwen3.5-9B	3.6	5.6	33.3%	1		87.31s	1,383	32,113

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	7.7	10.0	66.7%	0		32.73s	18	12,424
Qwen3.5-9B	3.6	7.2	22.2%	1		137.75s	11,549	48,475

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		11.77s	108	1,179
Qwen3.5-9B	2.8	1.6	33.3%	1		226.38s	0	30,695

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		9.56s	72	2,236
Qwen3.5-9B	6.4	5.8	66.7%	1		17.15s	599	4,517

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.15s	232	3,117
Qwen3.5-9B	3.1	10.0	0.0%	0		33.38s	1,545	11,844

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		23.15s	274	982
Qwen3.5-9B	10.0	10.0	100.0%	0		4.31s	444	1,149

Быстрое сравнение

Сменить пару сравнения

GPT-5.4 NanononevsQwen3.5-9Bmedium Ling 2.6 1tnoneБесплатно доступноvsQwen3.5-9Bmedium Qwen3.5-9BmediumvsGrok 4.1 Fastnone Qwen3.5-9BmediumvsMiMo-V2-Flashnone Qwen3.5-9BmediumvsHY3 PreviewnoneБесплатно доступно Claude Opus 4.7nonevsGemini 3.1 Pro Previewmedium Mercury 2nonevsQwen3.5-9Bmedium GPT-4o-mininonevsQwen3.5-9Bmedium Gemini 3.1 Pro PreviewmediumvsGPT-5.5low Nemotron 3 SupernoneБесплатно доступноvsQwen3.5-9Bmedium Qwen3.5-9BmediumvsMiMo-V2.5none GPT-5.4 MininonevsQwen3.5-9Bmedium