Кривая обучения, часть 2: Как создать ИИ для разных диалектов
История с Ближнего Востока о трудностях разработки инструментов ИИ для арабского языка с его многочисленными аспектами
Galaxy AI теперь поддерживает 16 языков, что помогает большему количеству людей в преодолении языкового барьера с помощью перевода на устройстве в реальном времени. Компания Samsung открыла новую эру мобильного ИИ, и мы посетили исследовательские центры Samsung по всему миру, чтобы узнать, как появился Galaxy AI и какие трудности пришлось преодолеть при его разработке. В первой части статьи рассматривается процесс определения необходимых данных, а данная часть посвящена учету диалектов.
Обучение языка для модели ИИ – сложный процесс, особенно при наличии у него множества диалектов. Именно с такой задачей столкнулась команда Samsung R&D Institute Jordan (SRJO). «Арабский» был добавлен в языковой пакет для функций Galaxy AI, таких как Live Translate, и команде пришлось учитывать различные арабские диалекты, распространенные на Ближнем Востоке и в Северной Африке, каждый из которых отличается по произношению, словарному запасу и грамматике.
Состоящий в шестерке самых распространенных языков мира, арабский язык ежедневно используют более 400 миллионов человек.¹ Язык подразделяется на две формы: Фусха (современный стандартный арабский язык) и Аммия (диалекты арабского языка). На публичных и официальных мероприятиях и в новостных передачах используется Фусха, а Аммия чаще применяется в повседневных разговорах. Арабский язык распространен в более чем 20 странах, и в настоящее время в регионе насчитывается около 30 диалектов.
Неписаные правила
Взяв в расчет разнообразие арабских диалектов, команда SRJO использовала ряд приемов для выявления и обработки уникальных лингвистических особенностей, присущих каждому из них. Такой подход был крайне важен для того, чтобы Galaxy AI мог понимать и реагировать на региональные нюансы.
Мохаммад Хавелех, руководитель группы по преобразованию текста в речь (TTS) на арабском языке, подмечает, что в отличие от других языков, произношение объекта в арабском зависит от субъекта и глагола в предложении. Целью команды выступила разработка модели, которая понимает все диалекты и отвечает на стандартном арабском.
Text-to-Speech (TTS) – это компонент функции Live Translate от Galaxy AI, позволяющий пользователям взаимодействовать с носителями разных языков, переводя устную речь и преобразовывая ее в письменный текст, а затем воспроизводя ее вокально. Команда TTS столкнулась с уникальной проблемой, вызванной особенностями арабского языка.
Диакритические знаки, используемые в арабском языке, служат руководством для произношения слов в некоторых контекстах, например, в религиозных текстах, поэзии и книгах для изучения языка. Они широко распространены среди носителей языка, но отсутствуют в повседневном письме. Это затрудняет преобразование исходного текста в фонемы – основные звуковые единицы, из которых строится речь.
По словам Хавелеха, для правильного использования диакритических знаков не хватает качественных и надежных наборов данных. Команда должна была разработать нейронную модель, которая могла бы предсказывать и восстанавливать недостающие диакритические знаки с высокой точностью.
Нейронные модели работают аналогично человеческому мозгу. Чтобы предсказать диакритические знаки, модель должна изучить множество арабских текстов, выучить правила языка и понять, как слова используются в различных контекстах. Например, произношение слова может сильно отличаться в зависимости от описываемого действия или рода. Интенсивное обучение команды способствовало повышению точности модели арабского TTS.
Улучшенное понимание
Команде SRJO также пришлось заниматься сбором аудиозаписей диалектов из различных источников, которые необходимо было расшифровать, отмечая уникальные звуки, слова и фразы. «Была собрана команда носителей диалектов, которые хорошо разбирались в их нюансах и особенностях», – говорит Айя Хасан (Ayah Hasan), чья команда отвечала за создание базы данных. «Прослушивая записи, они вручную преобразовывали произнесенные слова в текст».
Так, была проведена крайне важная работа по усовершенствованию процесса автоматического распознавания речи (Automatic Speech Recognition), чтобы Galaxy AI мог справляться с разнообразием арабских диалектов. ASR играет ключевую роль в обеспечении возможностей Galaxy AI для понимания и реагирования в режиме реального времени.
«Создание системы ASR, поддерживающей несколько диалектов в одной модели, – сложная задача», – говорит Мохаммад Хамдан (Mohammad Hamdan), руководитель проекта ASR. «Оно требует глубокого понимания тонкостей языка, тщательного отбора данных и передовых методов моделирования».
Кульминация инноваций
После нескольких месяцев планирования, разработки и тестирования команда была готова выпустить арабский язык в качестве языковой опции для Galaxy AI, что позволило гораздо большему количеству людей общаться без границ. Благодаря ним, сервисы Galaxy AI стали доступными для носителей арабского языка, что снизило языковые и культурные барьеры между людьми по всему миру. Кроме того, новые передовые методы, разработанные ими, можно распространить по всему миру. Команда на этом не останавливается – она продолжает совершенствовать свои модели и повышать качество языковых возможностей Galaxy AI.
В следующем эпизоде мы отправимся во Вьетнам, чтобы узнать, как совершенствуются языковые данные. А также, что необходимо для обучения эффективной модели ИИ?
Арабский – лишь один из многих языков и диалектов, поддерживаемых Galaxy AI и доступных для загрузки в приложении «Настройки». Языковые функции Galaxy AI, такие как Live Translate и Interpreter, доступны на устройствах Galaxy с обновлением One UI 6.1 от Samsung.²
1 ЮНЕСКО, Всемирный день арабского языка 2023, https://www.unesco.org/en/world-arabic-language-day
2 One UI 6.1 был впервые выпущен на устройствах серии Galaxy S24, а затем распространился и на другие устройства Galaxy, включая серии S23, S23 FE, S22, S21, Z Fold5, Z Fold4, Z Fold3, Z Flip5, Z Flip4, Z Flip3, Tab S9 и Tab S8.
Продукты > Мобильные устройства
Новости компании > Технологии
По любым вопросам, связанным с сервисным обслуживанием, пожалуйста, обращайтесь на сайт samsung.com/kz_ru/support.
По вопросам сотрудничества со СМИ, пожалуйста, пишите на info.kz@samsung.com.