Кривая обучения, часть 3: Преображение данных ИИ из хороших в отличные

25.05.2024

ПОДЕЛИТЬСЯ Share open/close

Share open/close

Ссылка скопирована.

Исследование Samsung во Вьетнаме – это продолжение серии статей о людях и инновациях, позволяющих мобильному искусственному интеллекту улучшать жизнь людей

Samsung является первопроходцем в области мобильного ИИ премиум-класса. В целях изучения того, как Galaxy AI максимально раскрывает потенциал своих пользователей, мы посетили исследовательские центры Samsung по всему миру. Теперь Galaxy AI поддерживает 16 языков, позволяя людям расширить свои языковые возможности даже в автономном режиме благодаря переводу на устройстве в таких функциях, как Live Translate, Interpreter, Note Assist и Browsing Assist. Не так давно мы посетили Иорданию, чтобы ознакомиться со сложностями разработки модели ИИ для арабского языка, обладающего множеством диалектов. А сейчас мы отправимся во Вьетнам, чтобы выяснить, как осуществляется подготовка данных для обучения моделей ИИ.

Какая разница между призраком, могилой и матерью во вьетнамском языке? Для языка, на котором говорят 97 миллионов человек по всему миру, разница несущественная. Каждое из этих слов переводится как “ma”, “mả” и “má”, и различается только по тону. Это наглядно показывает, с каким трудом модели ИИ могут обучаться языку, учитывая, что они не могут на глаз определить контекст и эмоции разговора, а также намерения собеседников.

Вьетнамский научно-исследовательский институт Samsung (SRV) использовал высокоточные данные, чтобы помочь своей модели ИИ правильно распознавать даже самые тонкие языковые различия.

От качества используемых данных напрямую зависит точность автоматического распознавания речи (ASR), нейромашинного перевода (NMT) и преобразования текста в речь (TTS) – процессов, которые помогают функциям Galaxy AI, таким как Live Translate, Interpreter, Chat Assist и Browsing Assist, преодолевать языковые барьеры.

Тайфун испытаний

“Вьетнамский – сложный и разнообразный язык со множеством выражений, многие из которых сложно передать”, – говорит Нго Хенг Тхай, руководитель отдела NMT в SRV. Он оказался особенно сложным для разработки из 16 языков, которые поддерживает Galaxy AI.

“Как по мне, разработка модели ИИ для вьетнамского языка оказалась более сложной задачей, чем борьба с нашими тайфунами!” – добавляет он, а затем рассказывает о трудностях, с которыми пришлось столкнуться в процессе разработки.

Являясь тональным языком, вьетнамский язык имеет шесть разных тонов. В приведенном выше примере со словом “ma” видно, что небольшие нюансы в произношении могут кардинально изменить значение слов. В связи с этим потребовался тщательный и детальный подход к развитию модели ИИ.

“При разбивке схожих по звучанию слов одно слово состоит из нескольких коротких сегментов, или, так называемых “блоков”, – говорит Буй Нгок Тунг, руководитель направления ASR в SRV. “Модель ИИ различает короткие звуковые кадры продолжительностью около 20 миллисекунд, определяя, какие слова соответствуют тем или иным блокам. Следовательно, очень важно приложить максимум усилий на ранних этапах процесса обучения ИИ”.

Кроме того, для вьетнамского языка характерны омофоны и омонимы. В разговоре люди обычно полагаются на контекст и невербальные элементы, что позволяет им различать слова, звучащие или пишущиеся одинаково, но имеющие разное значение. Однако модели ИИ необходимо научить точно определять и различать тональность и похожие слова.

“Эта задача не из простых”, – объясняет Тхай. “Наряду с объемом, данные должны быть точными, чтобы обеспечить возможность распознавания языковых нюансов, существующих во вьетнамском языке”.

Тщательная подготовка

Процесс проверки данных состоит из трех этапов. Во-первых, необходимо пересмотреть и откорректировать аудиозаписи и тексты, использованные для обучения модели ИИ. Далее этот набор данных проходит случайную проверку на предмет общего качества. И наконец, набор данных проходит нормализацию и очистку перед началом обучения.

«Мы провели ряд испытаний, чтобы проверить точность нашего набора данных», – говорит Нгуен Мань Дуй, руководитель отдела TTS в SRV, ответственный за создание базы данных. «В ходе работы мы столкнулись с рядом неожиданных проблем, в том числе с ошибками в написании слов в сценариях, фоновым шумом или неправильным произношением при звукозаписи. Нами было потрачено немалое количество времени на доработку и улучшение наших обучающих данных».

Важнейшей частью процесса улучшения данных является работа команды инженеров по обеспечению качества программного обеспечения (SQE). Команда играет важную роль в тестировании и улучшении качества данных и тесно сотрудничает с командой специалистов по развитию языка ИИ, что также помогает в реализации задач.

Помимо особенностей вьетнамского языка, существует недостаток общедоступных данных по сравнению с более широко распространенными языками. “Это еще одна причина, по которой этап проверки данных столь важен”, – добавляет он. “Поскольку у нас было небольшое количество источников, каждая информация должна была быть полностью достоверной. У нас не было права на ошибку”.

Более того, модель ИИ для вьетнамского языка должна учитывать как тональные, так и региональные различия. Для повышения точности модели ИИ команда собрала огромное количество данных о северном, центральном и южном акцентах вьетнамского языка, что позволило получить огромный объем информации для улучшения и проверки данных.

Постоянное совершенствование

Спустя несколько месяцев кропотливой работы разработчики из SRV завершили проект, после чего вьетнамский язык стал одним из первых языков, поддерживаемых Galaxy AI. И все же, несмотря на этот успех, команда продолжает неустанно работать над улучшением возможностей вьетнамского Galaxy AI.

“Мы продолжаем совершенствовать модель ИИ, учитывая отзывы пользователей о релевантности слов и фраз в Galaxy AI”, – говорит Тран Туан Минь, руководитель отдела разработки языка ИИ в SRV. “Это только начало нашего пути в более открытый мир, и перед нами еще много новых открытий”.

В следующем выпуске рубрики “Кривая обучения” мы отправимся в Китай, чтобы выяснить, как происходит обучение и настройка моделей ИИ.

TAGSAutomatic speech recognition Galaxy AI Live Translate Samsung R&D Institute Vietnam Text-to-speech

По любым вопросам, связанным с сервисным обслуживанием, пожалуйста, обращайтесь на сайт samsung.com/kz_ru/support.
По вопросам сотрудничества со СМИ, пожалуйста, пишите на info.kz@samsung.com.