Навигация
AI BENCHY
Advertise here

AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs OpenAI: GPT-5.4 Mini

Сводка

Сравнение benchmark Claude Opus 4.8 vs GPT-5.4 Mini: GPT-5.4 Mini лидирует по среднему баллу: 8.0 vs 7.7. GPT-5.4 Mini имеет более низкую стоимость benchmark: $0.526 vs $1.270. Claude Opus 4.8 быстрее: 10.83s vs 22.34s, с долей успешных попыток 79.4% vs 73.0%.

Рекомендуемая модель: GPT-5.4 Mini - Здесь у него лучший балл (8.0), при этом он примерно в 2.4 раза дешевле, чем Claude Opus 4.8.

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-06-30

Метрика Claude Opus 4.8 Claude Opus 4.8 low Релиз: 2026-05-28 GPT-5.4 Mini GPT-5.4 Mini medium Релиз: 2026-03-17
Оценка 7.7 8.0
Ранг #38 #27
Надежность 10.0 10.0
Стабильность 8.8 8.0
Тестов верно
Доля успешных попыток 79.4% 73.0%
Нестабильные тесты 3 5
Всего запусков 63 63
Стоимость за результат 8.466 4.381
Общая стоимость $1.270 $0.526
Цена входа $5.000 / 1M $0.750 / 1M
Цена выхода $25.000 / 1M $4.500 / 1M
Общее число входных токенов 60,946 34,116
Выходные токены 31,771 2,181
Токены рассуждений 6,831 108,937
Время ответа (среднее) 10.83s 22.34s
Время ответа (макс.) 127.97s 138.75s
Время ответа (суммарно) 227.39s 469.20s

Генерация showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#38 Claude Opus 4.8

low
Стоимость
$0.031
Время
14.1s
Токены
1,345 tok

#27 GPT-5.4 Mini

medium
Стоимость
$0.056
Время
95.5s
Токены
12,464 tok

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Claude Opus 4.8 10.0 10.0 100.0% 0 3.30s 834 793 371
GPT-5.4 Mini 8.6 7.9 91.7% 1 4.05s 606 296 2,876
Программирование Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Claude Opus 4.8 6.6 4.6 77.8% 2 7.58s 10,590 3,637 809
GPT-5.4 Mini 8.4 7.4 88.9% 1 57.87s 7,305 467 40,902
Комбинированный Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Claude Opus 4.8 9.8 10.0 100.0% 0 20.84s 23,500 2,216 1,081
GPT-5.4 Mini 10.0 10.0 100.0% 0 17.81s 11,019 317 4,317
Парсинг и извлечение данных Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Claude Opus 4.8 6.3 5.8 66.7% 1 2.27s 10,503 310 0
GPT-5.4 Mini 10.0 10.0 100.0% 0 2.43s 7,140 234 650
Предметно-ориентированное Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Claude Opus 4.8 5.3 10.0 33.3% 0 45.53s 975 23,311 3,908
GPT-5.4 Mini 4.1 4.4 44.5% 2 65.31s 619 60 43,286
Общий интеллект Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Claude Opus 4.8 10.0 10.0 100.0% 0 2.55s 708 231 0
GPT-5.4 Mini 4.5 10.0 0.0% 0 3.72s 477 150 510
Следование инструкциям Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Claude Opus 4.8 9.8 10.0 100.0% 0 2.78s 909 111 221
GPT-5.4 Mini 9.8 10.0 100.0% 0 2.13s 660 96 1,185
Решение головоломок Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Claude Opus 4.8 10.0 10.0 100.0% 0 3.01s 894 592 184
GPT-5.4 Mini 7.8 10.0 66.7% 0 4.37s 642 278 2,443
Вызов инструментов Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Claude Opus 4.8 10.0 10.0 100.0% 0 6.85s 11,775 370 35
GPT-5.4 Mini 4.7 1.6 66.7% 1 9.62s 5,453 251 2,594
Эрудиция Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Claude Opus 4.8 3.0 10.0 0.0% 0 5.48s 258 200 222
GPT-5.4 Mini 3.0 10.0 0.0% 0 30.10s 195 32 10,174

Быстрое сравнение

Сменить пару сравнения