AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs OpenAI: GPT-5 Mini

Сводка

Сравнение benchmark Claude Opus 4.8 vs GPT-5 Mini: GPT-5 Mini лидирует по среднему баллу: 8.5 vs 7.7. GPT-5 Mini имеет более низкую стоимость benchmark: $0.159 vs $1.270. Claude Opus 4.8 быстрее: 10.83s vs 23.64s, с долей успешных попыток 79.4% vs 63.5%.

Рекомендуемая модель: GPT-5 Mini - Здесь у него лучший балл (8.5), при этом он примерно в 8.0 раза дешевле, чем Claude Opus 4.8.

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-07-02

Метрика	Claude Opus 4.8 Claude Opus 4.8 low Релиз: 2026-05-28	GPT-5 Mini GPT-5 Mini medium Релиз: 2025-08-07

Метрика	Claude Opus 4.8 Claude Opus 4.8 low Релиз: 2026-05-28	GPT-5 Mini GPT-5 Mini medium Релиз: 2025-08-07
Оценка	7.7	8.5
Ранг	#38	#16
Надежность	10.0	10.0
Стабильность	8.8	9.1
Тестов верно
Доля успешных попыток	79.4%	63.5%
Нестабильные тесты	3	2
Всего запусков	63	63
Стоимость за результат	8.466	1.319
Общая стоимость	$1.270	$0.159
Цена входа	$5.000 / 1M	$0.250 / 1M
Цена выхода	$25.000 / 1M	$2.000 / 1M
Общее число входных токенов	60,946	37,100
Выходные токены	31,771	6,801
Токены рассуждений	6,831	67,690
Время ответа (среднее)	10.83s	23.64s
Время ответа (макс.)	127.97s	88.15s
Время ответа (суммарно)	227.39s	496.44s

Генерация showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#38 Claude Opus 4.8

low

Стоимость: $0.031
Время: 14.1s
Токены: 1,345 tok

#16 GPT-5 Mini

medium

Стоимость: $0.007
Время: 42.9s
Токены: 3,432 tok

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	10.0	10.0	100.0%	0		3.30s	834	793	371
GPT-5 Mini	7.1	7.6	66.7%	1		13.86s	606	1,715	6,378

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	6.6	4.6	77.8%	2		7.58s	10,590	3,637	809
GPT-5 Mini	10.0	10.0	100.0%	0		27.63s	7,302	658	17,152

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	9.8	10.0	100.0%	0		20.84s	23,500	2,216	1,081
GPT-5 Mini	10.0	10.0	100.0%	0		88.15s	14,118	754	11,520

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	6.3	5.8	66.7%	1		2.27s	10,503	310	0
GPT-5 Mini	10.0	10.0	100.0%	0		12.58s	7,140	453	3,200

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	5.3	10.0	33.3%	0		45.53s	975	23,311	3,908
GPT-5 Mini	3.6	7.2	22.2%	1		44.63s	515	293	14,016

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	10.0	10.0	100.0%	0		2.55s	708	231	0
GPT-5 Mini	4.5	10.0	0.0%	0		13.50s	477	349	1,856

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	9.8	10.0	100.0%	0		2.78s	909	111	221
GPT-5 Mini	10.0	10.0	100.0%	0		11.59s	660	310	3,968

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	10.0	10.0	100.0%	0		3.01s	894	592	184
GPT-5 Mini	5.6	9.8	33.3%	0		15.20s	642	1,622	6,144

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	10.0	10.0	100.0%	0		6.85s	11,775	370	35
GPT-5 Mini	10.0	10.0	100.0%	0		18.64s	5,445	487	1,600

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	3.0	10.0	0.0%	0		5.48s	258	200	222
GPT-5 Mini	3.0	10.0	0.0%	0		9.99s	195	160	1,856

Быстрое сравнение

Сменить пару сравнения