Навигация
AI BENCHY
Advertise here

AI BENCHY Compare

Anthropic: Claude Opus 4.7 vs Google: Gemini 3.5 Flash

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-19

Метрика Claude Opus 4.7 Claude Opus 4.7 medium Релиз: 2026-04-16 Gemini 3.5 Flash Gemini 3.5 Flash minimal Релиз: 2026-05-19
Оценка 8.9 8.1
Ранг #7 #21
Надежность 10.0 10.0
Стабильность 10.0 9.6
Тестов верно
Доля успешных попыток 84.2% 75.4%
Нестабильные тесты 0 1
Всего запусков 57 57
Стоимость за результат 2.802 0.494
Общая стоимость $0.449 $0.070
???? ????? $5.000 / 1M $1.500 / 1M
???? ?????? $25.000 / 1M $9.000 / 1M
Выходные токены 5,399 2,262
Токены рассуждений 1,341 0
Время ответа (среднее) 3.46s 1.37s
Время ответа (макс.) 21.45s 3.56s
Время ответа (суммарно) 62.29s 26.04s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.7 8.3 10.0 75.0% 0 1.85s 348 0
Gemini 3.5 Flash 6.5 10.0 50.0% 0 892ms 405 0
Программирование Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.7 10.0 10.0 100.0% 0 6.41s 1,141 257
Gemini 3.5 Flash 10.0 10.0 100.0% 0 1.28s 441 0
Комбинированный Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.7 10.0 10.0 100.0% 0 21.45s 2,369 1,084
Gemini 3.5 Flash 3.0 10.0 0.0% 0 3.56s 404 0
Парсинг и извлечение данных Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.7 10.0 10.0 100.0% 0 2.37s 324 0
Gemini 3.5 Flash 10.0 10.0 100.0% 0 1.66s 279 0
Предметно-ориентированное Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.7 7.7 10.0 66.7% 0 1.17s 51 0
Gemini 3.5 Flash 10.0 10.0 100.0% 0 899ms 12 0
Общий интеллект Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.7 10.0 10.0 100.0% 0 2.87s 256 0
Gemini 3.5 Flash 10.0 10.0 100.0% 0 922ms 117 0
Следование инструкциям Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.7 10.0 10.0 100.0% 0 1.57s 114 0
Gemini 3.5 Flash 6.4 5.8 66.7% 1 893ms 76 0
Решение головоломок Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.7 10.0 10.0 100.0% 0 2.51s 399 0
Gemini 3.5 Flash 10.0 10.0 100.0% 0 1.45s 282 0
Вызов инструментов Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.7 10.0 10.0 100.0% 0 4.17s 373 0
Gemini 3.5 Flash 10.0 10.0 100.0% 0 2.79s 234 0
Эрудиция Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.7 3.0 10.0 0.0% 0 2.25s 24 0
Gemini 3.5 Flash 3.0 10.0 0.0% 0 1.76s 12 0

Быстрое сравнение

Сменить пару сравнения