Google: Gemini 3 Flash Preview vs MoonshotAI: Kimi K2.5
Сводка
Сравнение benchmark Gemini 3 Flash Preview vs Kimi K2.5: Kimi K2.5 лидирует по среднему баллу: 7.5 vs 7.4. Gemini 3 Flash Preview имеет более низкую стоимость benchmark: $0.111 vs $0.328. Gemini 3 Flash Preview быстрее: 5.76s vs 98.43s, с долей успешных попыток 79.4% vs 68.3%.
Рекомендуемая модель: Gemini 3 Flash Preview - Его балл близок к лучшему здесь (7.4 против 7.5), при этом он примерно в 3.0 раза дешевле, чем Kimi K2.5.
Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-06-12
10.0Оценка успеха с первой попытки: 10.0 означает отсутствие повторяемых сбоев целевого API или лимитов до успешных вызовов; зафиксированные сбои снижают оценку.…
10.0Оценка успеха с первой попытки: 10.0 означает отсутствие повторяемых сбоев целевого API или лимитов до успешных вызовов; зафиксированные сбои снижают оценку.…
Стабильность
9.2Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
6.9Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
Тестов верно
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 5Время ответа (среднее)5.76sВремя ответа (макс.)14.72sВремя ответа (суммарно)120.93sТест считается полностью пройденным, только если все его прогоны успешны.…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 5Не соблюдены инструкции: 2Нет ответа: 2Тайм-аут: 2Время ответа (среднее)98.43sВремя ответа (макс.)281.00sВремя ответа (суммарно)1378.03sТест считается полностью пройденным, только если все его прогоны успешны.…
Доля успешных попыток
79.4%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
68.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
Нестабильные тесты
2Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
8Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Всего запусков
63Всего запусков…
63Всего запусков…
Стоимость за результат
0.689Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
3.704Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
Общая стоимость
$0.111Общая стоимость (текущая цена)…
$0.328Общая стоимость (текущая цена)…
Цена входа
$0.500 / 1MЦена входа…
$0.400 / 1MЦена входа…
Цена выхода
$3.000 / 1MЦена выхода…
$1.900 / 1MЦена выхода…
Общее число входных токенов
36,769Общее число входных токенов…
34,312Общее число входных токенов…
Выходные токены
2,076Выходные токены…
48,379Выходные токены…
Токены рассуждений
28,518Токены рассуждений…
157,747Токены рассуждений…
Время ответа (среднее)
5.76sВремя ответа (среднее)…
98.43sВремя ответа (среднее)…
Время ответа (макс.)
14.72sВремя ответа (макс.)…
281.00sВремя ответа (макс.)…
Время ответа (суммарно)
120.93sВремя ответа (суммарно)…
1378.03sВремя ответа (суммарно)…
Generation showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.48sВремя ответа (макс.)4.31sВремя ответа (суммарно)13.94sТест считается полностью пройденным, только если все его прогоны успешны.…
5.8Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
83.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
2Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет ответа: 1Неверный ответ: 1Время ответа (среднее)51.38sВремя ответа (макс.)85.28sВремя ответа (суммарно)102.75sТест считается полностью пройденным, только если все его прогоны успешны.…
7.2Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
44.4%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)6.00sВремя ответа (макс.)6.94sВремя ответа (суммарно)18.00sТест считается полностью пройденным, только если все его прогоны успешны.…
4.6Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
2Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет ответа: 1Тайм-аут: 1Время ответа (среднее)217.49sВремя ответа (макс.)281.00sВремя ответа (суммарно)652.48sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)3.27sВремя ответа (макс.)3.27sВремя ответа (суммарно)3.27sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)71.37sВремя ответа (макс.)71.37sВремя ответа (суммарно)71.37sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)9.40sВремя ответа (макс.)14.72sВремя ответа (суммарно)18.80sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)49.78sВремя ответа (макс.)49.78sВремя ответа (суммарно)49.78sТест считается полностью пройденным, только если все его прогоны успешны.…
7.2Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
44.4%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)8.05sВремя ответа (макс.)14.40sВремя ответа (суммарно)24.15sТест считается полностью пройденным, только если все его прогоны успешны.…
4.4Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
33.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
2Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Тайм-аут: 1Время ответа (среднее)137.29sВремя ответа (макс.)137.29sВремя ответа (суммарно)137.29sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.68sВремя ответа (макс.)3.68sВремя ответа (суммарно)3.68sТест считается полностью пройденным, только если все его прогоны успешны.…
3.4Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)69.73sВремя ответа (макс.)69.73sВремя ответа (суммарно)69.73sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)7.02sВремя ответа (макс.)7.35sВремя ответа (суммарно)14.03sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)92.47sВремя ответа (макс.)92.47sВремя ответа (суммарно)92.47sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)5.77sВремя ответа (макс.)10.27sВремя ответа (суммарно)17.32sТест считается полностью пройденным, только если все его прогоны успешны.…
7.3Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
44.4%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Неверный ответ: 1Время ответа (среднее)43.23sВремя ответа (макс.)82.75sВремя ответа (суммарно)86.47sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)4.99sВремя ответа (макс.)4.99sВремя ответа (суммарно)4.99sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)31.74sВремя ответа (макс.)31.74sВремя ответа (суммарно)31.74sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.75sВремя ответа (макс.)2.75sВремя ответа (суммарно)2.75sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)83.95sВремя ответа (макс.)83.95sВремя ответа (суммарно)83.95sТест считается полностью пройденным, только если все его прогоны успешны.…