AI BENCHY Compare

OpenAI: gpt-oss-120b vs Qwen: Qwen3.5-9B

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-03-12

Метрика	gpt-oss-120b gpt-oss-120b medium Релиз: 2025-08-05 Бесплатно доступно	Qwen3.5-9B Qwen3.5-9B none Релиз: 2026-03-02

Метрика	gpt-oss-120b gpt-oss-120b medium Релиз: 2025-08-05 Бесплатно доступно	Qwen3.5-9B Qwen3.5-9B none Релиз: 2026-03-02
Ранг	#43	#60
Средний балл	5.1	3.4
Стабильность	7.4	10.0
Стоимость за результат	0.135	0.111
Общая стоимость	$0.010	$0.005
Тестов верно
Доля успешных попыток	54.2%	25.0%
Нестабильные тесты	5	0
Всего запусков	48	48
Выходные токены	13,210	2,939
Токены рассуждений	34,230	0
Время ответа (среднее)	16.65s	1.06s
Время ответа (макс.)	50.92s	5.91s
Время ответа (суммарно)	149.88s	16.95s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Средний балл vs Время ответа (среднее)

Общее число выходных токенов

Средний балл vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
gpt-oss-120b	7.0	9.8	66.7%	0		19.76s	3,463	2,077
Qwen3.5-9B	10.0	9.9	0.0%	0		1.02s	576	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
gpt-oss-120b	10.0	10.0	100.0%	0		31.18s	694	5,072
Qwen3.5-9B	10.0	10.0	0.0%	0		5.91s	1,255	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
gpt-oss-120b	5.5	5.9	66.7%	1		1.98s	241	1,114
Qwen3.5-9B	9.9	10.0	100.0%	0		847ms	249	0

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
gpt-oss-120b	10.0	4.4	22.2%	2		50.92s	6,784	20,606
Qwen3.5-9B	10.0	10.0	0.0%	0		464ms	24	0

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
gpt-oss-120b	3.0	10.0	0.0%	0		7.90s	107	387
Qwen3.5-9B	3.0	9.9	0.0%	0		552ms	99	0

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
gpt-oss-120b	9.5	10.0	100.0%	0		7.63s	126	1,799
Qwen3.5-9B	5.5	10.0	50.0%	0		514ms	75	0

Puzzle Solving	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
gpt-oss-120b	1.7	4.7	22.2%	2		11.80s	1,508	2,092
Qwen3.5-9B	10.0	9.9	0.0%	0		683ms	388	0

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
gpt-oss-120b	9.0	10.0	100.0%	0		6.91s	287	1,083
Qwen3.5-9B	10.0	10.0	100.0%	0		1.27s	273	0

Быстрое сравнение

Сменить пару сравнения

gpt-oss-120bmediumБесплатно доступноvsQwen3.5-122B-A10Bnone Gemini 2.5 Flashnonevsgpt-oss-120bmediumБесплатно доступно gpt-oss-120bmediumБесплатно доступноvsQwen3.5-Flashnone Seed-2.0-Litenonevsgpt-oss-120bmediumБесплатно доступно gpt-oss-120bmediumБесплатно доступноvsQwen3.5-27Bnone Qwen3.5-9BnonevsGLM 4.7 Flashmedium gpt-oss-120bmediumБесплатно доступноvsQwen3.5-35B-A3Bnone DeepSeek V3.2nonevsgpt-oss-120bmediumБесплатно доступно gpt-oss-120bmediumБесплатно доступноvsHunter Alphanone gpt-oss-120bmediumБесплатно доступноvsGrok 4.20 Betanone Trinity Large PreviewnoneБесплатно доступноvsgpt-oss-120bmediumБесплатно доступно gpt-oss-120bmediumБесплатно доступноvsGLM 5none