Кривая обучения, часть 1: Почему обучение ИИ новым языкам начинается с данных

15.05.2024

ПОДЕЛИТЬСЯ Share open/close

Share open/close

Ссылка скопирована.

Исследование Samsung в Индонезии – часть серии статей о людях и инновациях, стоящих за демократизацией мобильного ИИ.

В то время как Samsung продолжает создавать первоклассные мобильные устройства с искусственным интеллектом, мы посещаем исследовательские центры Samsung по всему миру, чтобы узнать, как Galaxy AI позволяет большему количеству пользователей максимально раскрыть свой потенциал. Galaxy AI теперь поддерживает 16 языков, так что еще больше людей смогут расширить свои языковые возможности даже в автономном режиме благодаря переводу на устройстве в таких функциях, как Live Translate, Interpreter, Note Assist и Browsing Assist. Но что включает в себя разработка языка ИИ? В этой серии мы рассмотрим проблемы работы с мобильным ИИ и способы их преодоления. Сперва мы отправимся в Индонезию, чтобы узнать, с чего начинается обучение ИИ новому языку.

Первый шаг – это определение целей, по мнению команды Samsung R&D Institute Indonesia (SRIN). «Отменный ИИ начинается с качественных и релевантных данных. Каждый язык требует своего способа обработки, поэтому мы глубоко погружаемся в языковую среду, чтобы понять языковые потребности и уникальные условия нашей страны», – Джунайдилла Фадлил (Junaidillah Fadlil), руководитель отдела ИИ в SRIN, его команда недавно добавила поддержку индонезийского языка (Bahasa Indonesia) в Galaxy AI. «Развитие местных языков должно происходить под руководством интуиции и науки, поэтому каждый процесс добавления языков в Galaxy AI начинается с планирования, какая информация нам нужна и какую мы можем получить законным и этичным путем».

Функции Galaxy AI, такие как Live Translate, выполняют три основных процесса: автоматическое распознавание речи (ASR), нейромашинный перевод (NMT) и преобразование текста в речь (TTS). Каждый процесс требует отдельного набора информации.

ASR, например, требует обширных записей речи в различных условиях, каждая из которых сопровождается точной транскрипцией текста. Варьирование уровня фонового шума позволяет учитывать различные условия окружающей среды. «Недостаточно просто добавлять шумы к записям», – объясняет Мучлисин Ади Сапутра (Muchlisin Adi Saputra), руководитель группы ASR. «В дополнение к языковым данным, которые мы получаем от авторизованных сторонних партнеров, нам приходится выходить в кофейни или на рабочие места, чтобы записать свои голоса. Это позволяет нам достоверно передавать уникальные звуки из реальной жизни, например, голоса людей или стук клавиатуры».

Необходимо также учитывать постоянно меняющуюся природу языков. Сапутра добавляет: «Мы должны быть в курсе новейшего сленга и того, как он используется, и чаще всего мы находим его в социальных сетях»!

Далее NMT требуются данные для обучения переводу. «Перевод индонезийского языка – сложная задача», – говорит Мухамад Файсал (Muhamad Faisal), руководитель группы NMT. «Он широко использует контекстуальные и неявные значения, опираясь на социальные и ситуационные подсказки, поэтому нам нужны многочисленные переведенные тексты, в которых ИИ мог бы искать новые, иностранные слова, собственные существительные и идиомы – любую информацию, которая помогает ИИ понять контекст и правила общения».

Для TTS требуются записи, которые охватывают диапазон голосов и тонов, с дополнительным контекстом о том, как части слов звучат в различных обстоятельствах. «Хорошая запись голоса может сделать половину работы и покрыть все необходимые фонемы (единицы звука в речи) для модели ИИ», – добавляет Харитс Абдуррохман (Harits Abdurrohman), руководитель группы TTS. «Если актер озвучивания отлично справился со своей работой на предыдущем этапе, внимание переключается на совершенствование модели ИИ для четкого произношения конкретных слов».

Сильнее вместе

Для планирования большого объема данных требуются огромные ресурсы, поэтому SRIN тесно сотрудничала с экспертами в области лингвистики. «Эта задача требует творческого подхода, изобретательности и знаний как в области индонезийского языка, так и в области машинного обучения», – размышляет Фадлил. «Философия открытого сотрудничества Samsung сыграла большую роль в достижении поставленной цели, как и масштабы нашей деятельности и история развития ИИ».

Работая с другими исследовательскими центрами Samsung по всему миру, команда SRIN смогла быстро перенять передовой опыт и преодолеть сложности, связанные с созданием целевых данных. Кроме того, сотрудничество способствовало развитию не только технологий, но и культуры. Когда команда SRIN присоединилась к своим коллегам в Бангалоре, Индия, они наблюдали за местными постными обычаями, создавая более глубокие связи и расширяя свое понимание различных культур.

Для команды проект по расширению языка Galaxy AI приобрел новое значение. «Мы особо гордимся нашими достижениями, поскольку это был наш первый проект в области ИИ, и он не станет последним, поскольку мы продолжаем совершенствовать наши модели и улучшать качество результатов», – заключает Фадлил. «Это расширение не только отражает наши ценности открытости, но и уважает и учитывает нашу культурную самобытность через язык».

В следующем выпуске программы The Learning Curve мы отправимся в научно-исследовательский институт Samsung в Иордании, чтобы побеседовать с командой, возглавлявшей проект Galaxy AI по изучению арабского языка. Узнайте о сложностях создания и обучения модели ИИ для языка с различными диалектами.

TAGSGalaxy AI Live Translate Исследования Samsung Нейромашинный перевод

По любым вопросам, связанным с сервисным обслуживанием, пожалуйста, обращайтесь на сайт samsung.com/kz_ru/support.
По вопросам сотрудничества со СМИ, пожалуйста, пишите на info.kz@samsung.com.