OpenAI: gpt-oss-120b vs Qwen: Qwen3.5-Flash

Средний балл практически равен: 6.1 vs 6.1. gpt-oss-120b (medium) имеет более низкую стоимость benchmark: $0.019 vs $0.073. gpt-oss-120b (medium) быстрее: 21.91s vs 25.28s, с долей успешных попыток 50.0% vs 39.4%.

Рекомендуемая модельgpt-oss-120b (medium)Здесь у него лучший балл (6.1), при этом он примерно в 3.9 раза дешевле, чем Qwen3.5-Flash.

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-07-17

Метрика	gpt-oss-120b gpt-oss-120b medium Релиз: 2025-08-05	Qwen3.5-Flash Qwen3.5-Flash none Релиз: 2026-02-24

Метрика	gpt-oss-120b gpt-oss-120b medium Релиз: 2025-08-05	Qwen3.5-Flash Qwen3.5-Flash none Релиз: 2026-02-24
Оценка	6.1	6.1
Ранг	#115	#118
Надежность	10.0	10.0
Стабильность	8.0	9.3
Тестов верно
Доля успешных попыток	50.0%	39.4%
Нестабильные тесты	5	2
Всего запусков	66	66
Стоимость за результат	0.221	0.933
Общая стоимость	$0.019	$0.073
Цена входа	$0.037 / 1M	$0.065 / 1M
Цена выхода	$0.170 / 1M	$0.260 / 1M
Общее число входных токенов	108,747	282,347
Выходные токены	29,772	209,201
Токены рассуждений	68,044	0
Время ответа (среднее)	21.91s	25.28s
Время ответа (макс.)	68.16s	480.96s
Время ответа (суммарно)	328.70s	556.24s

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#115 gpt-oss-120b

medium

Стоимость: $0.001
Время: 26.7s
Токены: 555 tok

#118 Qwen3.5-Flash

none

Стоимость: $0.003
Время: 47.4s
Токены: 7,799 tok

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Категория:

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
gpt-oss-120b	6.7	9.9	50.0%	0		10.21s	1,314	3,518	2,177
Qwen3.5-Flash	3.5	8.3	8.3%	1		1.32s	696	690	0

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
gpt-oss-120b	5.9	7.0	55.6%	1		38.37s	7,782	3,365	11,973
Qwen3.5-Flash	5.5	10.0	33.3%	0		850ms	7,913	519	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
gpt-oss-120b	6.5	10.0	50.0%	0		23.96s	81,198	10,453	22,883
Qwen3.5-Flash	2.9	5.8	16.7%	1		243.59s	254,787	206,719	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
gpt-oss-120b	6.4	5.9	66.7%	1		1.98s	7,476	241	1,114
Qwen3.5-Flash	10.0	10.0	100.0%	0		1.57s	7,794	243	0

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
gpt-oss-120b	2.9	4.4	22.2%	2		50.92s	1,266	6,784	20,606
Qwen3.5-Flash	7.7	10.0	66.7%	0		905ms	789	15	0

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
gpt-oss-120b	4.3	10.0	0.0%	0		7.90s	659	107	387
Qwen3.5-Flash	10.0	10.0	100.0%	0		803ms	522	100	0

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
gpt-oss-120b	9.9	10.0	100.0%	0		7.63s	1,036	126	1,799
Qwen3.5-Flash	6.3	10.0	50.0%	0		8.81s	711	63	0

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
gpt-oss-120b	5.3	7.2	44.4%	1		21.71s	1,190	1,790	2,264
Qwen3.5-Flash	3.1	10.0	0.0%	0		10.89s	714	579	0

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
gpt-oss-120b	9.8	10.0	100.0%	0		6.91s	6,514	287	1,083
Qwen3.5-Flash	10.0	10.0	100.0%	0		3.67s	8,211	264	0

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
gpt-oss-120b	3.0	10.0	0.0%	0		26.51s	312	3,101	3,758
Qwen3.5-Flash	3.0	10.0	0.0%	0		588ms	210	9	0

Быстрое сравнение

Сменить пару сравнения

Gemini 3.1 Flash Litenonevsgpt-oss-120bmedium gpt-oss-120bmediumvsQwen3.6 Flashnone Gemini 3.1 Flash Liteminimalvsgpt-oss-120bmedium GPT-5 NanomediumvsQwen3.5-Flashnone gpt-oss-120bmediumvsQwen3.5 Plus 2026-04-20none gpt-oss-120bmediumvsQwen3.5-35B-A3Bnone Gemini 2.5 Flashnonevsgpt-oss-120bmedium Gemini 3.1 Flash LiteminimalvsQwen3.5-Flashnone Qwen3.5-FlashnonevsStep 3.5 Flashmedium Nemotron 3 UltranoneБесплатно доступноvsgpt-oss-120bmedium Seed-2.0-Litenonevsgpt-oss-120bmedium Gemma 4 31BnoneБесплатно доступноvsgpt-oss-120bmedium