AI BENCHY Compare

OpenAI: gpt-oss-120b vs Qwen: Qwen3.5-9B

Сводка

Сравнение benchmark gpt-oss-120b vs Qwen3.5-9B (medium): gpt-oss-120b лидирует по среднему баллу: 4.0 vs 3.8. gpt-oss-120b имеет более низкую стоимость benchmark: $0.010 vs $0.036. gpt-oss-120b быстрее: 21.61s vs 82.24s, с долей успешных попыток 34.9% vs 27.0%.

Рекомендуемая модель: gpt-oss-120b - Здесь у него лучший балл (4.0), при этом он примерно в 3.7 раза дешевле, чем Qwen3.5-9B (medium).

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-07-10

Метрика	gpt-oss-120b gpt-oss-120b none Релиз: 2025-08-05 Бесплатно доступно	Qwen3.5-9B Qwen3.5-9B medium Релиз: 2026-03-02

Метрика	gpt-oss-120b gpt-oss-120b none Релиз: 2025-08-05 Бесплатно доступно	Qwen3.5-9B Qwen3.5-9B medium Релиз: 2026-03-02
Оценка	4.0	3.8
Ранг	#184	#185
Надежность	10.0	6.7
Стабильность	8.2	8.0
Тестов верно
Доля успешных попыток	34.9%	27.0%
Нестабильные тесты	2	5
Всего запусков	57	63
Стоимость за результат	0.168	1.187
Общая стоимость	$0.010	$0.036
Цена входа	$0.036 / 1M	$0.100 / 1M
Цена выхода	$0.180 / 1M	$0.150 / 1M
Общее число входных токенов	9,081	17,070
Выходные токены	51,664	29,045
Токены рассуждений	0	209,516
Время ответа (среднее)	21.61s	82.24s
Время ответа (макс.)	113.71s	226.38s
Время ответа (суммарно)	345.79s	1315.88s

Генерация showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#184 gpt-oss-120b

none

Для этой модели еще не сгенерирован результат showcase.

Стоимость: $0.000
Время: -
Токены: 0 tok

#185 Qwen3.5-9B

medium

Стоимость: $0.001
Время: 35.9s
Токены: 3,030 tok

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
gpt-oss-120b	6.5	10.0	50.0%	0		32.84s	1,336	8,676	0
Qwen3.5-9B	5.1	5.8	50.0%	2		34.44s	369	2,621	12,411

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
gpt-oss-120b	1.5	4.0	22.2%	1		9.57s	901	3,232	0
Qwen3.5-9B	2.9	10.0	0.0%	0		100.88s	2,396	7,890	41,129

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
gpt-oss-120b	3.0	10.0	0.0%	0		0ms	0	0	0
Qwen3.5-9B	3.0	10.0	0.0%	0		0ms	0	0	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
gpt-oss-120b	6.5	10.0	50.0%	0		7.12s	2,421	598	0
Qwen3.5-9B	3.6	5.6	33.3%	1		87.31s	4,722	1,383	32,113

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
gpt-oss-120b	3.0	10.0	0.0%	0		34.98s	1,294	29,483	0
Qwen3.5-9B	3.6	7.2	22.2%	1		137.75s	295	11,549	48,475

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
gpt-oss-120b	4.8	10.0	0.0%	0		10.79s	584	615	0
Qwen3.5-9B	2.8	1.6	33.3%	1		226.38s	180	0	30,695

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
gpt-oss-120b	9.8	10.0	100.0%	0		5.06s	1,043	1,940	0
Qwen3.5-9B	6.5	10.0	50.0%	0		5.75s	381	491	1,824

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
gpt-oss-120b	6.0	7.2	55.6%	1		8.21s	1,188	3,982	0
Qwen3.5-9B	3.0	10.0	0.0%	0		32.27s	376	1,593	12,026

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
gpt-oss-120b	3.0	10.0	0.0%	0		0ms	0	0	0
Qwen3.5-9B	10.0	10.0	100.0%	0		4.31s	8,283	444	1,149

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
gpt-oss-120b	3.0	10.0	0.0%	0		47.29s	314	3,138	0
Qwen3.5-9B	3.0	10.0	0.0%	0		177.02s	68	3,074	29,694

Быстрое сравнение

Сменить пару сравнения

Granite 4.1 8BnonevsQwen3.5-9Bmedium gpt-oss-120bnoneБесплатно доступноvsGLM 4.7 Flashmedium Qwen3.5-9BmediumvsGrok 4.20none gpt-oss-120bnoneБесплатно доступноvsQwen3 Coder Nextmedium MiniMax M2.5mediumvsgpt-oss-120bnoneБесплатно доступно Mercury 2nonevsQwen3.5-9Bmedium Ling-2.6-1TnonevsQwen3.5-9Bmedium Cobuddymediumvsgpt-oss-120bnoneБесплатно доступно GPT-5.4 NanononevsQwen3.5-9Bmedium Ring-2.6-1TnonevsQwen3.5-9Bmedium Ling-2.6-flashnonevsQwen3.5-9Bmedium Nemotron 3 SupernoneБесплатно доступноvsQwen3.5-9Bmedium