Сравнение benchmark Gemini 3.5 Flash vs Mimo V2 Omni: Gemini 3.5 Flash лидирует по среднему баллу: 9.8 vs 5.7. Mimo V2 Omni имеет более низкую стоимость benchmark: $0.021 vs $1.115. Mimo V2 Omni быстрее: 2.44s vs 8.84s, с долей успешных попыток 96.8% vs 39.7%.
Рекомендуемая модель: Gemini 3.5 Flash - У него самый высокий балл в этом сравнении (9.8) и лучший общий баланс стоимости и времени ответа среди всех 2 моделей.
Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-06-18
Mimo V2 OmniMimo V2 OmninoneАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.Релиз: 2026-03-18
Оценка
9.8Средний балл по всем бенчмарк-тестам.…
5.7Средний балл по всем бенчмарк-тестам.…
Ранг
#1
#114
Надежность
10.0Оценка успеха с первой попытки: 10.0 означает отсутствие повторяемых сбоев целевого API или лимитов до успешных вызовов; зафиксированные сбои снижают оценку.…
10.0Оценка успеха с первой попытки: 10.0 означает отсутствие повторяемых сбоев целевого API или лимитов до успешных вызовов; зафиксированные сбои снижают оценку.…
Стабильность
9.6Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
9.7Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
Тестов верно
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)8.84sВремя ответа (макс.)34.82sВремя ответа (суммарно)185.57sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.57sВремя ответа (макс.)3.60sВремя ответа (суммарно)10.27sТест считается полностью пройденным, только если все его прогоны успешны.…
2.57sВремя ответа (среднее)…
492Общее число входных токенов…
174Выходные токены…
4,997Токены рассуждений…
Mimo V2 OmniАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
3.6Средний балл по всем бенчмарк-тестам.…
8.4Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
8.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Не соблюдены инструкции: 1Время ответа (среднее)1.63sВремя ответа (макс.)3.29sВремя ответа (суммарно)6.52sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)22.96sВремя ответа (макс.)34.82sВремя ответа (суммарно)68.88sТест считается полностью пройденным, только если все его прогоны успешны.…
22.96sВремя ответа (среднее)…
8,118Общее число входных токенов…
456Выходные токены…
47,129Токены рассуждений…
Mimo V2 OmniАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
4.4Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Ошибка API: 1Лишнее форматирование: 1Неверный ответ: 1Время ответа (среднее)2.75sВремя ответа (макс.)3.79sВремя ответа (суммарно)5.50sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)22.37sВремя ответа (макс.)22.37sВремя ответа (суммарно)22.37sТест считается полностью пройденным, только если все его прогоны успешны.…
22.37sВремя ответа (среднее)…
12,873Общее число входных токенов…
351Выходные токены…
16,323Токены рассуждений…
Mimo V2 OmniАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
3.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)5.96sВремя ответа (макс.)5.96sВремя ответа (суммарно)5.96sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)6.43sВремя ответа (макс.)8.51sВремя ответа (суммарно)12.87sТест считается полностью пройденным, только если все его прогоны успешны.…
6.43sВремя ответа (среднее)…
7,548Общее число входных токенов…
279Выходные токены…
8,466Токены рассуждений…
Mimo V2 OmniАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.76sВремя ответа (макс.)2.60sВремя ответа (суммарно)3.51sТест считается полностью пройденным, только если все его прогоны успешны.…
7.2Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
77.8%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)14.09sВремя ответа (макс.)22.00sВремя ответа (суммарно)42.27sТест считается полностью пройденным, только если все его прогоны успешны.…
14.09sВремя ответа (среднее)…
633Общее число входных токенов…
12Выходные токены…
24,721Токены рассуждений…
Mimo V2 OmniАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
5.3Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
33.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)2.10sВремя ответа (макс.)3.58sВремя ответа (суммарно)6.30sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.63sВремя ответа (макс.)3.63sВремя ответа (суммарно)3.63sТест считается полностью пройденным, только если все его прогоны успешны.…
3.63sВремя ответа (среднее)…
486Общее число входных токенов…
115Выходные токены…
1,650Токены рассуждений…
Mimo V2 OmniАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
4.1Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)2.33sВремя ответа (макс.)2.33sВремя ответа (суммарно)2.33sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.35sВремя ответа (макс.)3.42sВремя ответа (суммарно)6.69sТест считается полностью пройденным, только если все его прогоны успешны.…
3.35sВремя ответа (среднее)…
615Общее число входных токенов…
70Выходные токены…
3,799Токены рассуждений…
Mimo V2 OmniАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
6.5Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
50.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)4.26sВремя ответа (макс.)6.81sВремя ответа (суммарно)8.51sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.23sВремя ответа (макс.)3.68sВремя ответа (суммарно)9.69sТест считается полностью пройденным, только если все его прогоны успешны.…
3.23sВремя ответа (среднее)…
558Общее число входных токенов…
241Выходные токены…
4,940Токены рассуждений…
Mimo V2 OmniАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.16sВремя ответа (макс.)1.55sВремя ответа (суммарно)3.48sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)4.96sВремя ответа (макс.)4.96sВремя ответа (суммарно)4.96sТест считается полностью пройденным, только если все его прогоны успешны.…
4.96sВремя ответа (среднее)…
6,115Общее число входных токенов…
265Выходные токены…
1,608Токены рассуждений…
Mimo V2 OmniАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)5.40sВремя ответа (макс.)5.40sВремя ответа (суммарно)5.40sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.94sВремя ответа (макс.)3.94sВремя ответа (суммарно)3.94sТест считается полностью пройденным, только если все его прогоны успешны.…
3.94sВремя ответа (среднее)…
156Общее число входных токенов…
12Выходные токены…
2,005Токены рассуждений…
Mimo V2 OmniАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
3.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)1.30sВремя ответа (макс.)1.30sВремя ответа (суммарно)1.30sТест считается полностью пройденным, только если все его прогоны успешны.…