갤럭시 AI 글로벌 연구소 2화: 요르단(SRJO)
삼성전자의 갤럭시 S24를 통해 새로운 차원의 모바일 AI 시대가 펼쳐진 이후, 언어의 장벽이 점차 무너져 가고 있다. 그렇다면 자유로운 의사 소통을 위한 새로운 언어를 AI 모델에 학습시킨다는 것은 과연 어떤 의미이고 무엇을 말하는 것일까? 지난 1화 ‘삼성리서치 인도네시아 연구소(SRIN)편’에서 AI 학습에 필요한 데이터 식별 작업에 대해 살펴보았다면 이번에는 삼성리서치 요르단 연구소(SRJO)를 찾아가 각 언어의 방언을 인식하고 학습하는 복잡한 작업에 대해 알아보았다.
AI 모델에 언어를 학습시키는 일은 매우 복잡한 과정을 거친다. 하물며 그 언어가 단순한 하나의 언어가 아닌 다양한 방언의 집합체라면 과연 AI모델에 어떻게 학습시킬 수 있을까?
아랍어는 세계에서 6번째로 많이 사용되는 언어[1](20여개국 4억명 이상)로, 현대 표준 아랍어(MSA)인 푸스하와 방언인 암미야로 구분할 수 있다. 푸스하는 아랍 지역에서 공식 표준어로 사용되고 있어 미디어나 교육, 정부 등에서 사용되는 반면, 암미야는 일상적인 대화에 흔히 사용되곤 한다. 아랍어 방언은 특정 지역이나 도시에서 변형되어 사용하고 있는데, 총 30여종이 있다.
수 많은 방언을 표준어로…쉽지 않은 도전
갤럭시 AI의 실시간 통역 기능에 아랍어 옵션을 추가하기로 하면서 요르단 연구소에는 비상이 걸렸다. 중동과 북아프리카 권역에 퍼져있는 다른 발음, 어휘, 억양을 가진 방언들을 고려해야 했기 때문이다. 우선적으로 표준 아랍어와 유사도가 높은 걸프 지역 방언에 집중할 필요가 있었다.
요르단 연구소는 이를 해결하기 위해 언어 학습을 담당하는 갤럭시 AI 개발 여타 팀들과는 다른 방식으로 프로젝트에 접근했다. 모함마드 함단 (Mohammad Hamdan) 아랍어 언어 개발 프로젝트 총 책임자는 “다른 언어와는 다르게 아랍어는 문장 내 주어와 동사에 따라 목적어의 발음이 달라진다”며 “이 모든 방언을 이해하면서 표준 아랍어로 대답할 수 있는 모델을 개발하는 것이 우리의 목표”라고 말했다.
해당 작업에서 특히 어려웠던 부분은 텍스트 음성 변환(TTS) 작업이다. 이는 음성을 텍스트로 번역한 뒤 이를 다시 음성으로 재생하여 다른 언어를 사용하는 상대방과 소통이 가능하도록 갤럭시 AI의 실시간 통역 기능 구현에 필수 과정이었다.
이 과정에서 삼성리서치 요르단 연구소에는 아랍어의 독특한 특성을 AI 학습 모델에 반영해야만 하는 힘든 도전 과제가 주어졌다.
아랍어는 글자의 위나 아래에 찍어 기존의 철자와는 다른 발음이나 의미를 부여할 때 쓰는 ‘발음 구별 기호’를 사용해 단어의 발음을 표기하는데, 이는 종교 문헌이나 시, 어학 학습서 등에서 쓰인다.
아랍어가 모국어인 사용자의 경우 ‘발음 구별 기호’에 대한 이해는 당연하지만 일상 생활에서는 이를 사용하지 않기 때문에 컴퓨터가 아랍어 원문을 음성의 기본단위인 음소[2]로 바꾸는 것은 상당히 어려운 작업이다.
모함마드 하윌레 팀장은 “발음 구별 기호가 사용되는 방식을 정확하고 올바르게 표현하는 양질의 언어 데이터가 부족한 상황”이라며 “이를 보완하기 위해 누락된 발음 구별 기호를 높은 정확도로 예측하고 복원할 수 있는 신경망 모델(neural model)을 설계했다”고 말했다.
신경망은 사람의 두뇌 동작 방식을 흉내 낸다. 발음 구별 기호를 예측하기 위해 대량의 아랍어 텍스트를 분석하고 언어 규칙과 패턴을 학습한 후, 문맥과 구문을 바탕으로 이런 이해를 적용해야 한다. 일례로 단어의 발음은 명사의 성별과 사용된 동사에 따라 크게 달라질 수 있다. 아랍어 TTS 모델이 정확도를 달성하기까지 엄청난 양의 훈련이 필요했던 까닭이다.
언어 AI 이해의 고도화
요르단 연구소는 다양한 출처에서 각기 다른 방언의 음성 녹음 데이터를 모으고 고유한 소리, 단어, 문장에 주목하여 이 것을 텍스트로 변환했다.
데이터베이스 구축을 맡은 아야 하산(Ayah Hasan)은 “여러 방언의 미묘한 차이와 변형을 정확히 이해할 수 있는 원어민들로 팀을 구성했다”며 “이들은 녹음된 내용을 듣고 그것을 일일이 글과 문장으로 바꾸는 수작업을 진행했다”고 설명했다.
더불어 사우디아라비아와 아랍에미리트에서 사용되는 고유 명사의 문서와 녹음 샘플을 수집하고, 이후 기계 번역 처리 과정을 진행하기 위해 속어, 관용 표현, 방언별 특성 등 참조 텍스트도 확보했다.
해당 프로젝트의 자동 음성 인식(ASR) 책임자인 모함마드 함단(Mohammand Hamdan)은 “하나의 언어 모델에서 다수의 방언을 지원하는 ASR 시스템을 만드는 것은 대단히 어려운 일”이라며 “언어의 복잡성에 대한 깊은 이해, 신중한 데이터 선별, 고급 모델링 기술을 필요로 한다”고 말했다.
요르단 연구소 모든 구성원이 끊임없이 노력한 결과, 마침내 갤럭시 AI에 아랍어 옵션이 추가되어 출시되었고, 더 많은 갤럭시 AI 사용자들에게 국경을 넘는 소통의 자유를 누릴 수 있도록 해주는 계기가 되었다.
이제 아랍어 사용자들은 방언에 관계없이 보다 쉽고 편리하게 갤럭시 AI 서비스를 이용할 수 있게 되었다. 동시에 삼성리서치 요르단 연구소의 고객을 위한 불굴의 노력과 그에 따른 성과는 전 세계에 전파 할만한 모범 사례로 꼽히고 있다.
본 시리즈의 제3화에서는 베트남으로 향해 데이터 정제와 AI 모델 트레이닝 과정을 살펴본다.
[1]Unesco, World Arabic Language Day 2023, https://www.unesco.org/en/world-arabic-language-day
[2]한 언어의 음성체계에서 단어의 의미를 구별 짓는 최소의 소리 단위이다.
예를 들어, 한국어의 ‘살’과 ‘쌀’에서 첫소리인 /ㅅ/과 /ㅆ/, ‘손’과 ‘산’에서 모음 /ㅗ/와 /ㅏ/는 두 낱말의 의미를 구별시켜 주는 변별적 기능을 가진 음소이다.
삼성전자 뉴스룸의 직접 제작한 기사와 이미지는 누구나 자유롭게 사용하실 수 있습니다.
그러나 삼성전자 뉴스룸이 제공받은 일부 기사와 이미지는 사용에 제한이 있습니다.
<삼성전자 뉴스룸 콘텐츠 이용에 대한 안내 바로가기>