Навигация
AI BENCHY
Advertise here

AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs Google: Gemini 3.5 Flash

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-28

Метрика Claude Opus 4.8 Claude Opus 4.8 medium Релиз: 2026-05-28 Gemini 3.5 Flash Gemini 3.5 Flash none Релиз: 2026-05-19
Оценка 8.7 8.9
Ранг #12 #9
Надежность 10.0 10.0
Стабильность 9.6 8.6
Тестов верно
Доля успешных попыток 83.3% 90.2%
Нестабильные тесты 1 3
Всего запусков 60 60
Стоимость за результат 6.285 6.594
Общая стоимость $1.006 $0.924
Цена входа $5.000 / 1M $1.500 / 1M
Цена выхода $25.000 / 1M $9.000 / 1M
Выходные токены 23,201 100,760
Токены рассуждений 5,901 0
Время ответа (среднее) 9.34s 9.05s
Время ответа (макс.) 38.03s 64.36s
Время ответа (суммарно) 186.84s 153.86s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.8 10.0 10.0 100.0% 0 3.95s 1,179 478
Gemini 3.5 Flash 10.0 10.0 100.0% 0 2.53s 5,101 0
Программирование Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.8 10.0 10.0 100.0% 0 14.97s 6,651 1,381
Gemini 3.5 Flash 8.2 6.7 83.3% 1 39.62s 59,169 0
Комбинированный Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.8 9.8 10.0 100.0% 0 38.03s 5,260 1,588
Gemini 3.5 Flash 0.0 0.0 0.0% 0 0ms 0 0
Парсинг и извлечение данных Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.8 7.1 5.6 83.3% 1 12.29s 481 312
Gemini 3.5 Flash 10.0 10.0 100.0% 0 8.10s 5,895 0
Предметно-ориентированное Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.8 5.3 10.0 33.3% 0 14.15s 7,477 900
Gemini 3.5 Flash 7.6 7.2 77.8% 1 10.64s 17,910 0
Общий интеллект Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.8 10.0 10.0 100.0% 0 2.46s 237 0
Gemini 3.5 Flash 10.0 10.0 100.0% 0 3.46s 1,620 0
Следование инструкциям Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.8 10.0 10.0 100.0% 0 3.32s 373 320
Gemini 3.5 Flash 9.8 10.0 100.0% 0 3.38s 3,928 0
Решение головоломок Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.8 10.0 10.0 100.0% 0 3.95s 791 483
Gemini 3.5 Flash 10.0 10.0 100.0% 0 3.13s 4,640 0
Вызов инструментов Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.8 10.0 10.0 100.0% 0 8.96s 301 225
Gemini 3.5 Flash 0.0 0.0 0.0% 0 0ms 0 0
Эрудиция Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.8 3.0 10.0 0.0% 0 6.14s 451 214
Gemini 3.5 Flash 2.8 1.6 33.3% 1 4.87s 2,497 0

Быстрое сравнение

Сменить пару сравнения