AI BENCHY Compare

OpenAI: GPT-5.5 vs Elephant Alpha

Сводка

Сравнение benchmark GPT-5.5 vs Elephant Alpha: GPT-5.5 лидирует по среднему баллу: 9.3 vs 4.6. Elephant Alpha имеет более низкую стоимость benchmark: $0.000 vs $0.907. Elephant Alpha быстрее: 1.22s vs 9.76s, с долей успешных попыток 85.7% vs 27.0%.

Рекомендуемая модель: GPT-5.5 - У него самый высокий балл в этом сравнении (9.3) и лучший общий баланс стоимости и времени ответа среди всех 2 моделей.

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-06-18

Метрика	GPT-5.5 GPT-5.5 low Релиз: 2026-04-24	Elephant Alpha Elephant Alpha none Релиз: 2026-04-14

Метрика	GPT-5.5 GPT-5.5 low Релиз: 2026-04-24	Elephant Alpha Elephant Alpha none Релиз: 2026-04-14
Оценка	9.3	4.6
Ранг	#4	#152
Надежность	10.0	Н/Д
Стабильность	10.0	9.7
Тестов верно
Доля успешных попыток	85.7%	27.0%
Нестабильные тесты	0	1
Всего запусков	63	63
Стоимость за результат	5.035	0.000
Общая стоимость	$0.907	$0.000
Цена входа	$5.000 / 1M	$0.000 / 1M
Цена выхода	$30.000 / 1M	$0.000 / 1M
Общее число входных токенов	34,209	33,743
Выходные токены	2,046	2,573
Токены рассуждений	22,460	0
Время ответа (среднее)	9.76s	1.22s
Время ответа (макс.)	56.19s	3.81s
Время ответа (суммарно)	204.92s	22.03s

Генерация showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#4 GPT-5.5

low

Стоимость: $0.068
Время: 37.0s
Токены: 2,339 tok

#152 Elephant Alpha

none

Elephant Alpha was a stealth model revealed on April 21st as Ling-2.6-flash. Find it here: https://openrouter.ai/inclusionai/ling-2.6-flash:free

Стоимость: $0.000
Время: 0.1s
Токены: 0 tok

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.5	10.0	10.0	100.0%	0		4.41s	606	238	1,020
Elephant Alpha	6.6	10.0	50.0%	0		963ms	726	610	0

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.5	10.0	10.0	100.0%	0		15.04s	7,302	423	6,402
Elephant Alpha	4.2	7.8	22.2%	1		1.39s	813	375	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.5	10.0	10.0	100.0%	0		9.56s	11,019	303	717
Elephant Alpha	3.0	10.0	0.0%	0		3.81s	14,046	731	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.5	10.0	10.0	100.0%	0		3.28s	7,140	228	157
Elephant Alpha	6.5	10.0	50.0%	0		1.04s	8,004	246	0

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.5	5.3	10.0	33.3%	0		28.05s	723	69	11,609
Elephant Alpha	3.0	10.0	0.0%	0		927ms	810	24	0

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.5	10.0	10.0	100.0%	0		5.17s	477	133	245
Elephant Alpha	4.0	10.0	0.0%	0		854ms	540	106	0

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.5	9.9	10.0	100.0%	0		3.74s	660	93	415
Elephant Alpha	9.8	10.0	100.0%	0		1.03s	732	81	0

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.5	10.0	10.0	100.0%	0		4.74s	642	279	954
Elephant Alpha	4.2	10.0	0.0%	0		807ms	729	170	0

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.5	10.0	10.0	100.0%	0		4.96s	5,445	250	101
Elephant Alpha	3.0	10.0	0.0%	0		2.79s	7,343	230	0

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.5	3.0	10.0	0.0%	0		10.06s	195	30	840
Elephant Alpha	3.0	10.0	0.0%	0		0ms	0	0	0

Быстрое сравнение

Сменить пару сравнения

GPT-5.5lowvsQwen3.7 Maxmedium Claude Fable 5mediumvsGPT-5.5low Gemini 3.1 Pro PreviewmediumvsGPT-5.5low Gemini 3.5 FlashmediumvsGPT-5.5low Gemini 3 Flash PreviewmediumvsGPT-5.5low GPT-5.5lowvsQwen3.6 Max Previewmedium Claude Opus 4.8mediumvsGPT-5.5low Gemini 3.5 FlashhighvsGPT-5.5low Claude Opus 4.7mediumvsGPT-5.5low GPT-5.5lowvsGLM 5.2medium GPT-5.5lowvsGLM 5medium Seed-2.0-LitemediumvsGPT-5.5low