Laguna M.1Laguna M.1mediumАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.Релиз: 2026-04-28Бесплатно доступно
Оценка
9.3Средний балл по всем бенчмарк-тестам.…
6.9Средний балл по всем бенчмарк-тестам.…
Ранг
#3
#74
Надежность
10.0Оценка успеха с первой попытки: 10.0 означает отсутствие повторяемых сбоев целевого API или лимитов до успешных вызовов; зафиксированные сбои снижают оценку.…
10.0Оценка успеха с первой попытки: 10.0 означает отсутствие повторяемых сбоев целевого API или лимитов до успешных вызовов; зафиксированные сбои снижают оценку.…
Стабильность
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
8.3Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
Тестов верно
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)2.98sВремя ответа (макс.)6.44sВремя ответа (суммарно)59.59sТест считается полностью пройденным, только если все его прогоны успешны.…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 4Нет ответа: 2Не соблюдены инструкции: 1Время ответа (среднее)14.38sВремя ответа (макс.)53.14sВремя ответа (суммарно)215.70sТест считается полностью пройденным, только если все его прогоны успешны.…
Доля успешных попыток
90.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
64.4%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
Нестабильные тесты
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
3Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Всего запусков
60Всего запусков…
57Всего запусков…
Стоимость за результат
1.582Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
0.000Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.52sВремя ответа (макс.)5.40sВремя ответа (суммарно)10.08sТест считается полностью пройденным, только если все его прогоны успешны.…
2.52sВремя ответа (среднее)…
209Выходные токены…
2,536Токены рассуждений…
Laguna M.1Архивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
7.7Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)4.87sВремя ответа (макс.)6.30sВремя ответа (суммарно)14.62sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
50.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)5.54sВремя ответа (макс.)5.59sВремя ответа (суммарно)11.08sТест считается полностью пройденным, только если все его прогоны успешны.…
5.54sВремя ответа (среднее)…
452Выходные токены…
6,839Токены рассуждений…
Laguna M.1Архивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
4.3Средний балл по всем бенчмарк-тестам.…
1.1Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)35.61sВремя ответа (макс.)35.61sВремя ответа (суммарно)35.61sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)6.44sВремя ответа (макс.)6.44sВремя ответа (суммарно)6.44sТест считается полностью пройденным, только если все его прогоны успешны.…
6.44sВремя ответа (среднее)…
351Выходные токены…
3,050Токены рассуждений…
Laguna M.1Архивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
3.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет ответа: 1Время ответа (среднее)53.14sВремя ответа (макс.)53.14sВремя ответа (суммарно)53.14sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.81sВремя ответа (макс.)2.32sВремя ответа (суммарно)3.63sТест считается полностью пройденным, только если все его прогоны успешны.…
1.81sВремя ответа (среднее)…
279Выходные токены…
1,164Токены рассуждений…
Laguna M.1Архивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)4.93sВремя ответа (макс.)5.03sВремя ответа (суммарно)9.86sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)3.39sВремя ответа (макс.)4.44sВремя ответа (суммарно)10.16sТест считается полностью пройденным, только если все его прогоны успешны.…
3.39sВремя ответа (среднее)…
12Выходные токены…
4,538Токены рассуждений…
Laguna M.1Архивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
5.3Средний балл по всем бенчмарк-тестам.…
7.2Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
44.4%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)24.14sВремя ответа (макс.)45.83sВремя ответа (суммарно)72.43sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.27sВремя ответа (макс.)2.27sВремя ответа (суммарно)2.27sТест считается полностью пройденным, только если все его прогоны успешны.…
2.27sВремя ответа (среднее)…
119Выходные токены…
916Токены рассуждений…
Laguna M.1Архивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
0.0Средний балл по всем бенчмарк-тестам.…
0.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)0msВремя ответа (макс.)0msВремя ответа (суммарно)0msТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.86sВремя ответа (макс.)2.10sВремя ответа (суммарно)3.73sТест считается полностью пройденным, только если все его прогоны успешны.…
1.86sВремя ответа (среднее)…
71Выходные токены…
1,652Токены рассуждений…
Laguna M.1Архивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)4.30sВремя ответа (макс.)6.00sВремя ответа (суммарно)8.59sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.35sВремя ответа (макс.)3.25sВремя ответа (суммарно)7.06sТест считается полностью пройденным, только если все его прогоны успешны.…
2.35sВремя ответа (среднее)…
288Выходные токены…
2,150Токены рассуждений…
Laguna M.1Архивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
3.8Средний балл по всем бенчмарк-тестам.…
5.8Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
33.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет ответа: 1Неверный ответ: 1Время ответа (среднее)7.57sВремя ответа (макс.)9.69sВремя ответа (суммарно)15.14sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.27sВремя ответа (макс.)3.27sВремя ответа (суммарно)3.27sТест считается полностью пройденным, только если все его прогоны успешны.…
3.27sВремя ответа (среднее)…
234Выходные токены…
403Токены рассуждений…
Laguna M.1Архивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)6.31sВремя ответа (макс.)6.31sВремя ответа (суммарно)6.31sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.88sВремя ответа (макс.)1.88sВремя ответа (суммарно)1.88sТест считается полностью пройденным, только если все его прогоны успешны.…
1.88sВремя ответа (среднее)…
12Выходные токены…
690Токены рассуждений…
Laguna M.1Архивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
0.0Средний балл по всем бенчмарк-тестам.…
0.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)0msВремя ответа (макс.)0msВремя ответа (суммарно)0msТест считается полностью пройденным, только если все его прогоны успешны.…