Сравнение benchmark Gemma 4 31B vs MiMo-V2.5-Pro: Gemma 4 31B лидирует по среднему баллу: 6.1 vs 5.5. Gemma 4 31B имеет более низкую стоимость benchmark: $0.004 vs $0.017. MiMo-V2.5-Pro быстрее: 1.78s vs 4.05s, с долей успешных попыток 47.6% vs 39.7%.
Рекомендуемая модель: Gemma 4 31B - Здесь у него лучший балл (6.1), при этом он примерно в 5.3 раза дешевле, чем MiMo-V2.5-Pro.
Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-06-18
10.0Оценка успеха с первой попытки: 10.0 означает отсутствие повторяемых сбоев целевого API или лимитов до успешных вызовов; зафиксированные сбои снижают оценку.…
10.0Оценка успеха с первой попытки: 10.0 означает отсутствие повторяемых сбоев целевого API или лимитов до успешных вызовов; зафиксированные сбои снижают оценку.…
Стабильность
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
8.6Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
Тестов верно
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 8Ошибка API: 2Не соблюдены инструкции: 1Время ответа (среднее)4.05sВремя ответа (макс.)26.13sВремя ответа (суммарно)76.87sТест считается полностью пройденным, только если все его прогоны успешны.…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 11Не соблюдены инструкции: 4Время ответа (среднее)1.78sВремя ответа (макс.)8.32sВремя ответа (суммарно)37.42sТест считается полностью пройденным, только если все его прогоны успешны.…
Доля успешных попыток
47.6%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
39.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
Нестабильные тесты
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
4Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Всего запусков
63Всего запусков…
63Всего запусков…
Стоимость за результат
0.034Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
0.648Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
Общая стоимость
$0.004Общая стоимость (текущая цена)…
$0.017Общая стоимость (текущая цена)…
Цена входа
$0.120 / 1MЦена входа…
$0.435 / 1MЦена входа…
Цена выхода
$0.350 / 1MЦена выхода…
$0.870 / 1MЦена выхода…
Общее число входных токенов
20,911Общее число входных токенов…
30,724Общее число входных токенов…
Выходные токены
1,407Выходные токены…
3,043Выходные токены…
Токены рассуждений
0Токены рассуждений…
0Токены рассуждений…
Время ответа (среднее)
4.05sВремя ответа (среднее)…
1.78sВремя ответа (среднее)…
Время ответа (макс.)
26.13sВремя ответа (макс.)…
8.32sВремя ответа (макс.)…
Время ответа (суммарно)
76.87sВремя ответа (суммарно)…
37.42sВремя ответа (суммарно)…
Генерация showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
50.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)1.85sВремя ответа (макс.)4.45sВремя ответа (суммарно)7.40sТест считается полностью пройденным, только если все его прогоны успешны.…
8.1Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
8.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Не соблюдены инструкции: 1Время ответа (среднее)2.67sВремя ответа (макс.)8.32sВремя ответа (суммарно)10.67sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
33.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)11.19sВремя ответа (макс.)26.13sВремя ответа (суммарно)33.58sТест считается полностью пройденным, только если все его прогоны успешны.…
7.8Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
22.2%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Не соблюдены инструкции: 1Время ответа (среднее)1.41sВремя ответа (макс.)2.39sВремя ответа (суммарно)4.23sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Ошибка API: 1Время ответа (среднее)0msВремя ответа (макс.)0msВремя ответа (суммарно)0msТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)3.54sВремя ответа (макс.)3.54sВремя ответа (суммарно)3.54sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.25sВремя ответа (макс.)3.02sВремя ответа (суммарно)4.51sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.32sВремя ответа (макс.)1.42sВремя ответа (суммарно)2.64sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)3.22sВремя ответа (макс.)4.68sВремя ответа (суммарно)9.67sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
33.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)877msВремя ответа (макс.)904msВремя ответа (суммарно)2.63sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.09sВремя ответа (макс.)2.09sВремя ответа (суммарно)2.09sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)2.58sВремя ответа (макс.)2.58sВремя ответа (суммарно)2.58sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
50.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)2.84sВремя ответа (макс.)4.45sВремя ответа (суммарно)5.68sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
50.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)1.03sВремя ответа (макс.)1.10sВремя ответа (суммарно)2.06sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
33.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Неверный ответ: 1Время ответа (среднее)4.23sВремя ответа (макс.)7.63sВремя ответа (суммарно)12.69sТест считается полностью пройденным, только если все его прогоны успешны.…
4.7Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
77.8%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
2Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Неверный ответ: 1Время ответа (среднее)1.30sВремя ответа (макс.)1.61sВремя ответа (суммарно)3.90sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Ошибка API: 1Время ответа (среднее)0msВремя ответа (макс.)0msВремя ответа (суммарно)0msТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.30sВремя ответа (макс.)3.30sВремя ответа (суммарно)3.30sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)1.25sВремя ответа (макс.)1.25sВремя ответа (суммарно)1.25sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)1.89sВремя ответа (макс.)1.89sВремя ответа (суммарно)1.89sТест считается полностью пройденным, только если все его прогоны успешны.…