[Взгляд в будущее с Samsung Research] Научно-исследовательский центр Samsung в Польше: Создание технологий на базе искусственного интеллекта, призванных сделать жизнь людей комфортнее
В этой статье из цикла интервью с техническими экспертами из исследовательских центров Samsung мы беседуем с Лукашем Слабински (Lukasz Slabinski), руководителем группы искусственного интеллекта в Исследовательском институте Samsung в Польше (SRPOL).
Слабински присоединился к Исследовательскому центру Samsung в 2013 году в качестве старшего инженера, и теперь, спустя восемь лет упорной работы, возглавляет команду, которая занимается разработкой технологий искусственного интеллекта. В этом материале мы расскажем о тех инновациях, над которыми работают Слабински и его команда.
Как известно, разработка решений в области распознавания речи очень сложна. С какими проблемами вы столкнулись, работая над языковыми технологиями, и как вы их преодолевали?
На мой взгляд, языковые технологии намного сложнее любых других. Человечество общается почти на 7 тысячах постоянно развивающихся языков, которые, в свою очередь, разделяются на бесконечные акценты и диалекты. Более того, человеческий язык гораздо менее объективен, чем, например, картинка, которую можно описать математическими формулами. Люди кодируют свои мысли как набор звуков или символов, а другие затем расшифровывают и интерпретируют это сообщение. Поскольку каждый этап этого процесса является уникальным, творческим и недетерминированным, весь процесс человеческого общения с использованием языка очень сложен и неоднозначен. Таким образом, с одной стороны, мы можем наслаждаться красивыми стихами и смеяться над забавными шутками, а с другой – время от времени вынуждены страдать от недопонимания.
Часто мы сталкиваемся с проблемами при, казалось бы, обычном общении с коллегами на работе или с семьей дома. Так каким же образом инженер, владеющий всего двумя языками, может разработать и запрограммировать систему машинного перевода с поддержкой 40 различных языков? Этот парадокс решается с помощью технологий машинного обучения.
Во время процесса, называемого «обучением», мы автоматически извлекаем общие закономерности на основе примеров из наших наборов данных и запоминаем их в виде модели. Чтобы создать систему машинного перевода, мы обучаем нейронную сеть находить соответствующие предложения на разных языках на основе миллионов примеров, которые были тщательно отобраны и проверены заранее. На первый взгляд, звучит просто, но на самом деле здесь мы сталкиваемся с тремя фундаментальными задачами.
Первая задача – это разработка соответствующей архитектуры модели машинного обучения, способной запоминать и обобщать достаточное количество языковых шаблонов для решения конкретных задач, таких как машинный перевод, анализ тональности, реферирование текста и другие.
Вторая – это подготовка достаточного количества обучающих данных, поскольку системы машинного обучения способны распознавать и запоминать только те шаблоны и паттерны, которые представлены в наборе обучающих данных.
Последней задачей является развертывание уже обученной модели в выделенном облаке или непосредственно на устройстве.
Мы решаем эти проблемы, опираясь на обширный опыт наших инженеров, используя комплексный подход к сбору данных и проводя бесконечные эксперименты с современными архитектурами машинного обучения.
Не могли бы вы вкратце представить свою команду, занимающуюся технологиями искусственного интеллекта, рассказать об Исследовательском институте Samsung в Польше и о той работе, которая там проводится?
Это учреждение Samsung – один из крупнейших международных научно-исследовательских центров в области ПО в Польше. Его отделения расположены в двух городах: в Варшаве, столице Польши, и в Кракове, крупном технологическом центре региона. Мы тесно сотрудничаем с местными стартапами, университетами и другими исследовательскими институтами.
Миссия нашей группы в Исследовательском центре – создание функций, инструментов и сервисов на базе искусственного интеллекта, способных сделать повседневную жизнь людей проще и разнообразнее. В основном, мы сосредоточены на технологиях обработки естественного языка и на так называемых технологиях Audio Intelligence – обработке звуковых сигналов, но мы также обладаем экспертизой и по многим другим областям, включая системы рекомендаций, позиционирование объектов внутри помещений (indoor positioning), визуальную аналитику и технологии дополненной реальности (AR).
Как руководитель группы искусственного интеллекта Польского центра с 2018 года, вы занимались множеством проектов, как в области обработки естественного языка, так и в других сферах. Над чем вы и ваша команда работаете сегодня?
Что касается обработки текстов на естественных языках, мы продолжаем работу, которую начали более 10 лет назад, развивая такие технологии, как системы машинного перевода, диалоговые системы, включая системы подготовки ответов на вопросы и системы анализа текста. Мы работаем как над масштабируемыми, мощными облачными сервисами, так и над быстрыми и автономными приложениями, которые запускаются на пользовательских устройствах.
Технологии Audio Intelligence – это новая для нас область. Мы начали заниматься ими и исследовать их потенциал всего несколько лет назад, когда они начали становиться все более значимыми. Сегодня мы работаем над распознаванием, разделением, улучшением и анализом звука. В ходе работы мы уделяем внимание всем аспектам обработки звука, от распознавания акустической сцены до точной настройки алгоритмов встроенного звука на устройствах с очень ограниченными аппаратными ресурсами, таких как беспроводные наушники.
В число ваших технологических направлений входят технологии распознавания естественных языков, интеллектуальный анализ текста и данных, звуковой интеллект и многое другое. Повлияли ли ваши исследования напрямую на разработку того или иного продукта или сервиса Samsung? Какие преимущества принесла пользователям помощь вашей команды?
Исследовательский центр Samsung в Польше имеет большой опыт коммерциализации технологий искусственного интеллекта, но мы сделали это не в одиночку. Мы гордимся тем, что являемся частью более широкой картины: наш Центр тесно сотрудничает с другими научно-исследовательскими центрами Samsung и вносит свой вклад в коммерциализацию технологий.
Например, мы внесли свой вклад в разработку ряда функций интеллектуального ввода текста для мобильных устройств Samsung, в том числе в разработку экранной клавиатуры, функции хэштега, функции подбора заголовков для приложения Samsung «Заметки» и функции интеллектуальных ответов на сообщения на носимых устройствах.
Мы также внесли вклад в создание системы рекомендаций, которая работает в магазине Galaxy Store и предлагает пользователям наиболее интересные игры в зависимости от их предпочтений.
Как специалист, занимающийся новыми областями применения искусственного интеллекта, таких как звуковой интеллект, какие основные тенденции в вашей отрасли вы видите сегодня? Как эти технологии повлияют на повседневную жизнь людей?
Я убежден, что технологии Audio Intelligence в корне изменят правила игры для всех потребительских электронных устройств. Работа над аудио аналитикой чрезвычайно важна, поскольку это недостающая часть передовых, действительно ориентированных на человека систем на основе искусственного интеллекта.
Мощные системы распознавания текстов на естественных языках анализируют намерения пользователя, выраженные текстом и речью. Сегодня в основе почти каждой камеры и системы вывода визуального контента лежат алгоритмы компьютерного зрения. Большинству из нас трудно представить себе управление автомобилем без навигации, ввод сообщения без автоматического исправления орфографии или поиск информации без интернета. Но, за исключением нескольких профессиональных приложений, мы пока что очень редко используем интеллектуальные аудио технологии для улучшения нашего слухового восприятия. На мой взгляд, эта ситуация вскоре изменится.
Представьте себе, что теперь у нас есть общедоступная технология, которая позволяет людям выбирать, что и как они хотят слышать. Например, когда вы с друзьями отправляетесь пообедать в парк, расположенный в оживленном центре города, возможно, вы захотите слышать только звуки природы и людей, с которыми вы разговариваете. Или представьте себе некую современную систему виртуальной или дополненной реальности – феномен, получивший недавно название метавселенной, – которая создает иммерсивное, объемное звучание прямо в головах людей. Только уже эти две концепции порождают сотни новых возможных сценариев использования, но давайте не будем ограничиваться ими. Как насчет того, чтобы услышать то, что сейчас не слышно людям? Сегодня люди могут слышать только узкий спектр различных звуков. Наш мир полон значимых звуков, в обработке которых, по большей части, современные технологии искусственного интеллекта не задействованы. Я считаю, что с развитием технологий звукового интеллекта все это будет сильно влиять на жизни людей.
Как вы учитываете современные тенденции в своей работе, осуществляемой в Исследовательском центре Samsung в Польше?
Помимо распознавания текстов на естественных языках и аудио анализа, мы также работаем над поиском наиболее эффективных способов построения действительно мультимодальных систем. Для этого мы продолжаем исследования и анализируем всяческие сценарии использования с разных точек зрения. Такой анализ стал возможным благодаря нашей многопрофильной и междисциплинарной команде, состоящей из инженеров, лингвистов, специалистов по данным и многим другим областям.
Какие достижения вы считаете самыми важными в вашей работе в SRPOL?
Наверное, это наше решение для машинного перевода текстов. Оно получало награды на различных конкурсах в течение пяти лет подряд: Международный семинар по устному переводу (IWSLT) с 2017 по 2020 год; семинар по машинному переводу (WMT) в 2020 году; и семинар по переводу с азиатских языков (WAT) в 2021 году. Это одни из самых престижных международных конкурсов в нашей области.
Получение признания на WAT в этом году стало для команды особенно приятной вехой, поскольку разработка нашего решения для азиатских языков изначально была трудным делом для нас, польских инженеров, но это достижение доказало истинную мощь наших технологий, которые выходят за рамки простой демонстрации.
Еще одно достижение, которым я очень горжусь, – это скорость роста, которой достигла команда аудиоаналитики, и развитие ее технологий. Всего за несколько лет, начав практически с нуля, мы смогли одержать победу на конкурсах семинаров по распознаванию и классификации акустических сцен и событий в течение двух лет подряд, в 2019 и в 2020 годах. Мы также опубликовали ряд научных статей и получили патенты в этой области. Я уверен, что для нас это только начало.
Новости компании > Технологии
По любым вопросам, связанным с сервисным обслуживанием, пожалуйста, обращайтесь на сайт samsung.com/ru/support.
По вопросам сотрудничества со СМИ, пожалуйста, пишите на samsung@maslov.agency.