AI BENCHY Compare

inclusionAI: Ling-2.6-flash vs OpenAI: GPT-5.4

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-22

Метрика	Ling-2.6-flash Ling-2.6-flash none Релиз: 2026-04-21	GPT-5.4 GPT-5.4 none Релиз: 2026-03-05

Метрика	Ling-2.6-flash Ling-2.6-flash none Релиз: 2026-04-21	GPT-5.4 GPT-5.4 none Релиз: 2026-03-05
Оценка	5.3	5.6
Ранг	#128	#112
Надежность	10.0	10.0
Стабильность	9.2	9.1
Тестов верно
Доля успешных попыток	35.1%	38.3%
Нестабильные тесты	2	2
Всего запусков	60	60
Стоимость за результат	0.005	1.638
Общая стоимость	$0.001	$0.115
???? ?????	$0.010 / 1M	$2.500 / 1M
???? ??????	$0.030 / 1M	$15.000 / 1M
Выходные токены	2,878	2,378
Токены рассуждений	0	0
Время ответа (среднее)	9.76s	1.46s
Время ответа (макс.)	35.34s	2.95s
Время ответа (суммарно)	185.37s	29.23s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Ling-2.6-flash	6.8	8.1	58.3%	1		11.81s	573	0
GPT-5.4	3.2	8.0	8.3%	1		1.21s	406	0

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Ling-2.6-flash	10.0	10.0	100.0%	0		11.21s	381	0
GPT-5.4	6.8	10.0	50.0%	0		1.99s	501	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Ling-2.6-flash	3.0	10.0	0.0%	0		35.34s	1,069	0
GPT-5.4	3.0	10.0	0.0%	0		2.89s	291	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Ling-2.6-flash	6.5	10.0	50.0%	0		8.48s	246	0
GPT-5.4	10.0	10.0	100.0%	0		1.04s	222	0

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Ling-2.6-flash	3.0	10.0	0.0%	0		4.95s	24	0
GPT-5.4	5.3	7.2	44.4%	1		1.07s	50	0

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Ling-2.6-flash	4.0	10.0	0.0%	0		1.45s	109	0
GPT-5.4	4.4	9.9	0.0%	0		1.78s	184	0

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Ling-2.6-flash	9.8	10.0	100.0%	0		5.52s	81	0
GPT-5.4	6.5	10.0	50.0%	0		1.07s	81	0

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Ling-2.6-flash	2.9	7.2	11.1%	1		9.14s	151	0
GPT-5.4	5.6	9.8	33.3%	0		1.52s	357	0

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Ling-2.6-flash	3.0	10.0	0.0%	0		18.80s	229	0
GPT-5.4	10.0	10.0	100.0%	0		2.75s	246	0

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Ling-2.6-flash	3.0	10.0	0.0%	0		1.06s	15	0
GPT-5.4	3.0	10.0	0.0%	0		990ms	40	0

Быстрое сравнение

Сменить пару сравнения

Ling-2.6-flashnonevsElephant Alphamedium Ling-2.6-flashnonevsMistral Small 4medium Ling-2.6-flashnonevsMiniMax M2.5mediumБесплатно доступно MiniMax M2.5mediumБесплатно доступноvsGPT-5.4none CobuddymediumБесплатно доступноvsGPT-5.4none Mistral Small 4mediumvsGPT-5.4none GPT-5.4nonevsElephant Alphamedium Ling-2.6-flashnonevsMiniMax M2.7medium GPT-5.4nonevsOwl Alphamedium Ling-2.6-flashnonevsgpt-oss-120bmediumБесплатно доступно Nemotron 3 SupermediumБесплатно доступноvsGPT-5.4none CobuddymediumБесплатно доступноvsLing-2.6-flashnone