Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Не соблюдены инструкции: 1Время ответа (среднее)68.84sВремя ответа (макс.)280.52sВремя ответа (суммарно)1101.43sТест считается полностью пройденным, только если все его прогоны успешны.…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Ошибка API: 1Не соблюдены инструкции: 1Время ответа (среднее)25.25sВремя ответа (макс.)96.01sВремя ответа (суммарно)252.48sТест считается полностью пройденным, только если все его прогоны успешны.…
Стабильность
9.6Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
9.5Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
Стоимость за результат
19.209Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
0.314Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
Общая стоимость
$2.306Общая стоимость…
$0.035Общая стоимость…
Доля успешных попыток
77.1%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
72.9%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
Нестабильные тесты
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
common.totalRuns
46 (16 x 2.88)common.totalRuns…
46 (16 x 2.88)common.totalRuns…
Выходные токены
1,205Выходные токены…
11,556Выходные токены…
Токены рассуждений
1,530,700Токены рассуждений…
106,408Токены рассуждений…
Время ответа (среднее)
68.84sВремя ответа (среднее)…
25.25sВремя ответа (среднее)…
Время ответа (макс.)
280.52sВремя ответа (макс.)…
96.01sВремя ответа (макс.)…
Время ответа (суммарно)
1101.43sВремя ответа (суммарно)…
252.48sВремя ответа (суммарно)…
Лучшие модели по оценке
Оценка vs общая стоимость
Время ответа (среднее)
Средний балл vs Время ответа (среднее)
Разбивка по категориям
Анти-ИИ уловки
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
Google: Gemini 3.1 Flash Lite Preview
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)43.87sВремя ответа (макс.)121.88sВремя ответа (суммарно)131.62sТест считается полностью пройденным, только если все его прогоны успешны.…
43.87sВремя ответа (среднее)…
144Выходные токены…
193,077Токены рассуждений…
Xiaomi: MiMo-V2-Flash
9.7Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)16.79sВремя ответа (макс.)20.83sВремя ответа (суммарно)33.57sТест считается полностью пройденным, только если все его прогоны успешны.…
16.79sВремя ответа (среднее)…
1,328Выходные токены…
18,739Токены рассуждений…
Комбинированный
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
Google: Gemini 3.1 Flash Lite Preview
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)280.52sВремя ответа (макс.)280.52sВремя ответа (суммарно)280.52sТест считается полностью пройденным, только если все его прогоны успешны.…
280.52sВремя ответа (среднее)…
335Выходные токены…
380,440Токены рассуждений…
Xiaomi: MiMo-V2-Flash
9.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)75.68sВремя ответа (макс.)75.68sВремя ответа (суммарно)75.68sТест считается полностью пройденным, только если все его прогоны успешны.…
75.68sВремя ответа (среднее)…
442Выходные токены…
26,859Токены рассуждений…
Парсинг и извлечение данных
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
Google: Gemini 3.1 Flash Lite Preview
9.9Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)7.16sВремя ответа (макс.)8.54sВремя ответа (суммарно)14.31sТест считается полностью пройденным, только если все его прогоны успешны.…
7.16sВремя ответа (среднее)…
279Выходные токены…
6,186Токены рассуждений…
Xiaomi: MiMo-V2-Flash
5.5Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
50.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Ошибка API: 1Время ответа (среднее)0msВремя ответа (макс.)0msВремя ответа (суммарно)0msТест считается полностью пройденным, только если все его прогоны успешны.…
0msВремя ответа (среднее)…
153Выходные токены…
0Токены рассуждений…
Предметно-ориентированное
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
Google: Gemini 3.1 Flash Lite Preview
4.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
33.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)127.58sВремя ответа (макс.)133.93sВремя ответа (суммарно)382.74sТест считается полностью пройденным, только если все его прогоны успешны.…
127.58sВремя ответа (среднее)…
18Выходные токены…
566,202Токены рассуждений…
Xiaomi: MiMo-V2-Flash
4.0Средний балл по всем бенчмарк-тестам.…
7.2Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
55.6%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)96.01sВремя ответа (макс.)96.01sВремя ответа (суммарно)96.01sТест считается полностью пройденным, только если все его прогоны успешны.…
96.01sВремя ответа (среднее)…
8,374Выходные токены…
42,461Токены рассуждений…
Общий интеллект
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
Google: Gemini 3.1 Flash Lite Preview
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)5.36sВремя ответа (макс.)5.36sВремя ответа (суммарно)5.36sТест считается полностью пройденным, только если все его прогоны успешны.…
5.36sВремя ответа (среднее)…
39Выходные токены…
1,305Токены рассуждений…
Xiaomi: MiMo-V2-Flash
3.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)3.34sВремя ответа (макс.)3.34sВремя ответа (суммарно)3.34sТест считается полностью пройденным, только если все его прогоны успешны.…
3.34sВремя ответа (среднее)…
30Выходные токены…
182Токены рассуждений…
Следование инструкциям
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
Google: Gemini 3.1 Flash Lite Preview
9.0Средний балл по всем бенчмарк-тестам.…
6.9Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)70.07sВремя ответа (макс.)136.53sВремя ответа (суммарно)140.14sТест считается полностью пройденным, только если все его прогоны успешны.…
70.07sВремя ответа (среднее)…
69Выходные токены…
190,053Токены рассуждений…
Xiaomi: MiMo-V2-Flash
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)4.28sВремя ответа (макс.)7.37sВремя ответа (суммарно)8.55sТест считается полностью пройденным, только если все его прогоны успешны.…
4.28sВремя ответа (среднее)…
75Выходные токены…
3,504Токены рассуждений…
Puzzle Solving
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
Google: Gemini 3.1 Flash Lite Preview
7.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)46.33sВремя ответа (макс.)134.22sВремя ответа (суммарно)139.00sТест считается полностью пройденным, только если все его прогоны успешны.…
46.33sВремя ответа (среднее)…
87Выходные токены…
190,953Токены рассуждений…
Xiaomi: MiMo-V2-Flash
7.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)3.77sВремя ответа (макс.)5.26sВремя ответа (суммарно)7.55sТест считается полностью пройденным, только если все его прогоны успешны.…
3.77sВремя ответа (среднее)…
833Выходные токены…
1,948Токены рассуждений…
Вызов инструментов
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
Google: Gemini 3.1 Flash Lite Preview
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)7.73sВремя ответа (макс.)7.73sВремя ответа (суммарно)7.73sТест считается полностью пройденным, только если все его прогоны успешны.…
7.73sВремя ответа (среднее)…
234Выходные токены…
2,484Токены рассуждений…
Xiaomi: MiMo-V2-Flash
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)27.78sВремя ответа (макс.)27.78sВремя ответа (суммарно)27.78sТест считается полностью пройденным, только если все его прогоны успешны.…