AI BENCHY Compare

OpenAI: gpt-oss-120b vs Qwen: Qwen3.5-9B

Сводка

Сравнение benchmark gpt-oss-120b vs Qwen3.5-9B: gpt-oss-120b лидирует по среднему баллу: 5.4 vs 4.6. Qwen3.5-9B имеет более низкую стоимость benchmark: $0.006 vs $0.010. Qwen3.5-9B быстрее: 1.89s vs 21.61s, с долей успешных попыток 38.6% vs 20.6%.

Рекомендуемая модель: Qwen3.5-9B - Он дает лучший общий компромисс: конкурентный балл (4.6), ниже стоимость, чем у gpt-oss-120b, и сбалансированное время ответа.

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-06-10

Метрика	gpt-oss-120b gpt-oss-120b none Релиз: 2025-08-05 Бесплатно доступно	Qwen3.5-9B Qwen3.5-9B none Релиз: 2026-03-02

Метрика	gpt-oss-120b gpt-oss-120b none Релиз: 2025-08-05 Бесплатно доступно	Qwen3.5-9B Qwen3.5-9B none Релиз: 2026-03-02
Оценка	5.4	4.6
Ранг	#127	#155
Надежность	10.0	10.0
Стабильность	9.1	9.7
Тестов верно
Доля успешных попыток	38.6%	20.6%
Нестабильные тесты	2	1
Всего запусков	57	63
Стоимость за результат	0.168	0.123
Общая стоимость	$0.010	$0.006
Цена входа	$0.039 / 1M	$0.100 / 1M
Цена выхода	$0.180 / 1M	$0.150 / 1M
Общее число входных токенов	9,081	48,041
Выходные токены	51,664	3,952
Токены рассуждений	0	0
Время ответа (среднее)	21.61s	1.89s
Время ответа (макс.)	113.71s	6.03s
Время ответа (суммарно)	345.79s	39.68s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#127 gpt-oss-120b

none

No showcase result has been generated for this model yet.

Cost: $0.000
Time: -
Tokens: 0 tok

#155 Qwen3.5-9B

none

Invalid SVG

Cost: $0.000
Time: 300.0s
Tokens: 0 tok

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
gpt-oss-120b	6.5	10.0	50.0%	0		32.84s	1,336	8,676	0
Qwen3.5-9B	3.1	9.9	0.0%	0		1.71s	696	582	0

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
gpt-oss-120b	4.3	1.1	66.7%	1		9.57s	901	3,232	0
Qwen3.5-9B	3.9	7.8	11.1%	1		5.60s	7,913	1,042	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
gpt-oss-120b	3.0	10.0	0.0%	0		0ms	0	0	0
Qwen3.5-9B	3.0	10.0	0.0%	0		5.91s	20,397	1,255	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
gpt-oss-120b	6.5	10.0	50.0%	0		7.12s	2,421	598	0
Qwen3.5-9B	10.0	10.0	100.0%	0		847ms	7,788	249	0

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
gpt-oss-120b	3.0	10.0	0.0%	0		34.98s	1,294	29,483	0
Qwen3.5-9B	3.0	10.0	0.0%	0		464ms	789	24	0

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
gpt-oss-120b	4.8	10.0	0.0%	0		10.79s	584	615	0
Qwen3.5-9B	4.4	9.9	0.0%	0		552ms	522	99	0

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
gpt-oss-120b	9.8	10.0	100.0%	0		5.06s	1,043	1,940	0
Qwen3.5-9B	6.5	10.0	50.0%	0		514ms	711	75	0

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
gpt-oss-120b	6.0	7.2	55.6%	1		8.21s	1,188	3,982	0
Qwen3.5-9B	3.2	10.0	0.0%	0		621ms	714	347	0

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
gpt-oss-120b	3.0	10.0	0.0%	0		0ms	0	0	0
Qwen3.5-9B	10.0	10.0	100.0%	0		1.27s	8,301	273	0

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
gpt-oss-120b	3.0	10.0	0.0%	0		47.29s	314	3,138	0
Qwen3.5-9B	3.0	10.0	0.0%	0		2.32s	210	6	0

Быстрое сравнение

Сменить пару сравнения