Anthropic: Claude Sonnet 5 vs Google: Gemini 3.1 Flash Lite Preview
Сводка
Сравнение benchmark Claude Sonnet 5 vs Gemini 3.1 Flash Lite Preview: Gemini 3.1 Flash Lite Preview лидирует по среднему баллу: 6.5 vs 5.7. Gemini 3.1 Flash Lite Preview имеет более низкую стоимость benchmark: $0.026 vs $0.287. Gemini 3.1 Flash Lite Preview быстрее: 2.77s vs 4.74s, с долей успешных попыток 42.9% vs 61.9%.
Рекомендуемая модель: Gemini 3.1 Flash Lite Preview - Здесь у него лучший балл (6.5), при этом он примерно в 11.3 раза дешевле, чем Claude Sonnet 5.
Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-06-30
10.0Оценка успеха с первой попытки: 10.0 означает отсутствие повторяемых сбоев целевого API или лимитов до успешных вызовов; зафиксированные сбои снижают оценку.…
10.0Оценка успеха с первой попытки: 10.0 означает отсутствие повторяемых сбоев целевого API или лимитов до успешных вызовов; зафиксированные сбои снижают оценку.…
Стабильность
8.6Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 7Не соблюдены инструкции: 1Время ответа (среднее)2.77sВремя ответа (макс.)11.91sВремя ответа (суммарно)58.12sТест считается полностью пройденным, только если все его прогоны успешны.…
Доля успешных попыток
42.9%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
61.9%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
Нестабильные тесты
4Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Всего запусков
63Всего запусков…
63Всего запусков…
Стоимость за результат
4.098Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
0.196Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
Общая стоимость
$0.287Общая стоимость (текущая цена)…
$0.026Общая стоимость (текущая цена)…
Цена входа
$2.000 / 1MЦена входа…
$0.250 / 1MЦена входа…
Цена выхода
$10.000 / 1MЦена выхода…
$1.500 / 1MЦена выхода…
Общее число входных токенов
76,797Общее число входных токенов…
32,715Общее число входных токенов…
Выходные токены
13,325Выходные токены…
2,286Выходные токены…
Токены рассуждений
0Токены рассуждений…
9,166Токены рассуждений…
Время ответа (среднее)
4.74sВремя ответа (среднее)…
2.77sВремя ответа (среднее)…
Время ответа (макс.)
29.46sВремя ответа (макс.)…
11.91sВремя ответа (макс.)…
Время ответа (суммарно)
99.46sВремя ответа (суммарно)…
58.12sВремя ответа (суммарно)…
Генерация showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
25.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Лишнее форматирование: 2Неверный ответ: 1Время ответа (среднее)3.60sВремя ответа (макс.)7.10sВремя ответа (суммарно)14.39sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
75.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)2.12sВремя ответа (макс.)3.18sВремя ответа (суммарно)8.50sТест считается полностью пройденным, только если все его прогоны успешны.…
7.9Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
22.2%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)3.67sВремя ответа (макс.)5.83sВремя ответа (суммарно)11.02sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
33.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)1.39sВремя ответа (макс.)2.20sВремя ответа (суммарно)4.16sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет ответа: 1Время ответа (среднее)29.46sВремя ответа (макс.)29.46sВремя ответа (суммарно)29.46sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)11.91sВремя ответа (макс.)11.91sВремя ответа (суммарно)11.91sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.01sВремя ответа (макс.)3.29sВремя ответа (суммарно)6.02sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.00sВремя ответа (макс.)3.74sВремя ответа (суммарно)5.99sТест считается полностью пройденным, только если все его прогоны успешны.…
7.2Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
44.4%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)3.28sВремя ответа (макс.)4.75sВремя ответа (суммарно)9.83sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
33.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)2.36sВремя ответа (макс.)3.51sВремя ответа (суммарно)7.07sТест считается полностью пройденным, только если все его прогоны успешны.…
3.1Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
33.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)2.81sВремя ответа (макс.)2.81sВремя ответа (суммарно)2.81sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)1.54sВремя ответа (макс.)1.54sВремя ответа (суммарно)1.54sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
50.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Лишнее форматирование: 1Время ответа (среднее)2.58sВремя ответа (макс.)2.89sВремя ответа (суммарно)5.17sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.49sВремя ответа (макс.)1.66sВремя ответа (суммарно)2.99sТест считается полностью пройденным, только если все его прогоны успешны.…
7.4Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
55.6%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Лишнее форматирование: 1Неверный ответ: 1Время ответа (среднее)3.22sВремя ответа (макс.)3.65sВремя ответа (суммарно)9.67sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.69sВремя ответа (макс.)1.89sВремя ответа (суммарно)5.08sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)6.80sВремя ответа (макс.)6.80sВремя ответа (суммарно)6.80sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)9.54sВремя ответа (макс.)9.54sВремя ответа (суммарно)9.54sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет ответа: 1Время ответа (среднее)4.31sВремя ответа (макс.)4.31sВремя ответа (суммарно)4.31sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)1.35sВремя ответа (макс.)1.35sВремя ответа (суммарно)1.35sТест считается полностью пройденным, только если все его прогоны успешны.…