AI BENCHY Compare

IBM: Granite 4.1 8B vs Qwen: Qwen3.5-122B-A10B

Сводка

Сравнение benchmark Granite 4.1 8B vs Qwen3.5-122B-A10B: Qwen3.5-122B-A10B лидирует по среднему баллу: 5.3 vs 4.0. Granite 4.1 8B имеет более низкую стоимость benchmark: $0.003 vs $0.020. Granite 4.1 8B быстрее: 728ms vs 3.41s, с долей успешных попыток 9.5% vs 31.8%.

Рекомендуемая модель: Granite 4.1 8B - Он дает лучший общий компромисс: конкурентный балл (4.0), ниже стоимость, чем у Qwen3.5-122B-A10B, и сбалансированное время ответа.

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-06-12

Метрика	Granite 4.1 8B Granite 4.1 8B none Релиз: 2026-05-01	Qwen3.5-122B-A10B Qwen3.5-122B-A10B none Релиз: 2026-02-24

Метрика	Granite 4.1 8B Granite 4.1 8B none Релиз: 2026-05-01	Qwen3.5-122B-A10B Qwen3.5-122B-A10B none Релиз: 2026-02-24
Оценка	4.0	5.3
Ранг	#163	#132
Надежность	10.0	10.0
Стабильность	10.0	9.6
Тестов верно
Доля успешных попыток	9.5%	31.8%
Нестабильные тесты	0	1
Всего запусков	63	63
Стоимость за результат	0.131	0.393
Общая стоимость	$0.003	$0.020
Цена входа	$0.050 / 1M	$0.260 / 1M
Цена выхода	$0.100 / 1M	$2.080 / 1M
Общее число входных токенов	46,285	47,735
Выходные токены	2,911	3,383
Токены рассуждений	0	0
Время ответа (среднее)	728ms	3.41s
Время ответа (макс.)	2.17s	46.00s
Время ответа (суммарно)	15.29s	71.59s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#163 IBM: Granite 4.1 8B

none

Cost: $0.001
Time: 3.2s
Tokens: 491 tok

#132 Qwen3.5-122B-A10B

none

Cost: $0.016
Time: 44.5s
Tokens: 6,431 tok

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Granite 4.1 8B	4.9	10.0	25.0%	0		844ms	645	903	0
Qwen3.5-122B-A10B	4.8	10.0	25.0%	0		1.59s	696	312	0

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Granite 4.1 8B	4.5	10.0	0.0%	0		775ms	8,344	525	0
Qwen3.5-122B-A10B	3.7	7.0	22.2%	1		2.77s	7,913	693	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Granite 4.1 8B	3.0	10.0	0.0%	0		1.88s	19,089	396	0
Qwen3.5-122B-A10B	3.0	10.0	0.0%	0		46.00s	20,175	1,137	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Granite 4.1 8B	3.0	10.0	0.0%	0		575ms	7,617	195	0
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		1.01s	7,794	243	0

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Granite 4.1 8B	3.0	10.0	0.0%	0		357ms	768	24	0
Qwen3.5-122B-A10B	5.3	10.0	33.3%	0		465ms	789	15	0

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Granite 4.1 8B	4.0	10.0	0.0%	0		499ms	528	115	0
Qwen3.5-122B-A10B	5.0	10.0	0.0%	0		1.12s	522	66	0

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Granite 4.1 8B	3.6	9.9	0.0%	0		344ms	687	66	0
Qwen3.5-122B-A10B	6.3	10.0	50.0%	0		513ms	711	69	0

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Granite 4.1 8B	3.2	10.0	0.0%	0		608ms	672	432	0
Qwen3.5-122B-A10B	3.8	10.0	0.0%	0		1.00s	714	575	0

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Granite 4.1 8B	10.0	10.0	100.0%	0		2.17s	7,719	243	0
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		2.04s	8,211	264	0

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Granite 4.1 8B	3.0	10.0	0.0%	0		306ms	216	12	0
Qwen3.5-122B-A10B	3.0	10.0	0.0%	0		295ms	210	9	0

Быстрое сравнение

Сменить пару сравнения

MiniMax M2.7mediumvsQwen3.5-122B-A10Bnone Mistral Small 4mediumvsQwen3.5-122B-A10Bnone Granite 4.1 8BnonevsQwen3.5-9Bmedium Granite 4.1 8BnonevsGLM 4.7 Flashmedium CobuddymediumvsQwen3.5-122B-A10Bnone MiniMax M2.5mediumvsQwen3.5-122B-A10Bnone Granite 4.1 8BnonevsQwen3 Coder Nextmedium Granite 4.1 8BnonevsMiniMax M2.5medium Gemini 3.1 Flash LiteminimalvsQwen3.5-122B-A10Bnone CobuddymediumvsGranite 4.1 8Bnone DeepSeek V4 ProhighvsQwen3.5-122B-A10Bnone Qwen3.5-122B-A10BnonevsGLM 4.7 Flashmedium