“언어 장벽 없는 세상을 위해” 갤럭시 AI 글로벌 연구소의 언어 모델 개발 대장정

2024/07/30

삼성전자는 프리미엄 모바일 AI 경험 선도를 목표로 전 세계 20여 개의 R&D 센터에서 AI 모델 개발에 매진하고 있다. ‘갤럭시 AI’의 온디바이스 실시간 통·번역 기능은 현재 16개 언어^[1]를 지원하고 있으며, 올해 안에 스웨덴어, 네덜란드어, 루마니아어, 튀르키예어 등 4개 언어를 더 추가해 지원 언어를 총 20개로 확대할 계획이다.

삼성전자 뉴스룸은 인도네시아부터 일본 연구소까지 기사 총 8편에 걸쳐 ‘갤럭시 AI’의 다양한 언어 모델 개발 과정을 공개했다. 전 세계 삼성 글로벌 연구소의 노력으로 탄생한 ‘갤럭시 AI’에는 언어 장벽 없이 자유로운 소통을 향한 삼성전자의 끊임없는 여정이 담겨있다. 소제목의 각 국가명을 클릭하면 상세 기사로 이동할 수 있다.

▲갤럭시 AI의 통화 중 실시간 통역 기능은 크게 자동 음성인식(ASR), 인공신경망 기반 기계번역(NMT), 텍스트 음성 변환(TTS) 등 세가지 프로세스를 거친다

[요르단] 20개국 30여 종의 아랍어 방언을 이해하는 ‘갤럭시 AI’

아랍어는 20여 개국 4억 명 이상이 사용하는 세계에서 6번째로 많이 사용되는 언어다. 아랍어를 통번역 하려면 현대 표준 아랍어인 풋스하(Fusha)와 일상생활에서 사용하는 방언인 암미야(Ammiyya)를 모두 학습해야 한다. 아랍어 방언은 무려 30여 종이 넘는다.

삼성리서치 요르단 연구소(SRJO)는 아랍어 방언을 이해하고, 그에 따른 응답을 표준 아랍어로 할 수 있는 언어 모델을 개발했다. 이를 위해 서로 다른 방언의 음성 녹음 데이터를 수집하고, 이를 직접 텍스트로 변환하는 과정을 거쳤다. 삼성전자는 아랍어의 복잡성에 대한 깊은 이해를 바탕으로 신중하게 데이터를 선별했고, 고급 모델링 기술을 적용해 아랍어를 갤럭시 AI에 추가할 수 있었다.

[베트남] 0.02초 간격으로 6성조의 베트남어를 분석하는 ‘갤럭시 AI’

베트남어는 전 세계 약 1억 명이 사용하는 언어로, 중국어나 태국어 등과 같이 음성의 높낮이로 뜻을 구별하는 성조 체계를 가지고 있다. 예를 들어 베트남어 단어 ‘마(Ma)’는 성조에 따라 엄마(Má), 무덤(Mả), 귀신(Ma) 등 전혀 다른 의미가 된다.

삼성리서치 베트남 연구소(SRV)는 이러한 성조의 미세한 차이를 인식할 수 있도록, 음성 데이터를 매우 정교하게 다듬고 정제하는 과정을 진행했다. 무엇보다 성조를 정확히 구분해 내기 위해 한 단어를 0.02초 전후의 짧은 프레임으로 잘라내고 이를 데이터베이스화했다.

▲각 언어의 고유 특성과 문화적 배경을 잘 파악하고 반영해야 좋은 AI 서비스를 제공할 수 있다. 위는 베트남어 사례

[브라질] 중남미 22개국의 다양한 스페인어를 이해하는 ‘갤럭시 AI’

중남미 22개국의 공식 언어는 스페인어다. 하지만 같은 스페인어라도 동일한 대상을 지칭하는 단어가 국가와 지역에 따라 크게 달라지기도 한다. 예를 들어 수영장을 이를 때 멕시코에서는 ‘알베르카(alberca)’라 하고, 아르헨티나, 파라과이, 우루과이에서는 ‘필레타(pileta)’, 콜롬비아, 볼리비아, 베네수엘라에서는 ‘피시나(piscina)’라고 표현한다.

이러한 중남미 지역의 언어 모델 개발을 담당한 삼성리서치 브라질 연구소(SRBR)는 ‘갤럭시 AI’가 중남미 각 국가의 스페인어 차이를 이해할 수 있도록 현지 연구기관과 협업하여 각 국가의 오디오와 텍스트 등 방대한 양의 데이터를 수집하고 관리하며 꾸준히 개선했다.

[인도네시아] 인구 4위 인도네시아의 문장을 통째로 이해하는 ‘갤럭시 AI’

세계에서 네 번째로 인구가 많은 인도네시아에서는 약 2억 8천만 명이 인도네시아어를 사용한다. 인도네시아어는 관사나 복수형이 없고, 동사도 시제 변화가 없어 상대적으로 배우기 쉬운 언어로 알려져 있다. 그러나 동시에, 문장의 맥락을 제대로 이해하지 않으면 내용을 이해할 수 없어 통·번역이 쉽지 않은 언어이다. 특히, ‘인공신경망번역(Neural Machine Translation, NMT)’ 모델에서 어려움이 많았는데, 삼성리서치 인도네시아 연구소(SRIN)는 체계적이고 다양한 문장 단위의 학습을 통해 AI가 의사소통의 맥락과 규칙을 이해할 수 있도록 했다.

[중국] 로컬 기업과 협업하여, 복잡한 언어적 특성을 효율적으로 반영한 ‘갤럭시 AI’

중국어는 전 세계에서 가장 많은 사람들이 사용하는 언어다. 사용자가 약 14억 명이나 되는 만큼 다양한 방언이 존재하며, 사용 지역에 따라 속어, 문구, 어휘, 심지어 성조가 달라지기도 한다. 특히 홍콩과 광둥성 지역에서 널리 쓰이는 광둥어는 표준 중국어인 ‘보통화‘와는 상당한 차이가 있어 별도 언어 모델이 필요하다.

삼성리서치 중국연구소(SRC)는 이러한 중국어에 특화된 갤럭시 AI 솔루션을 만들기 위해 현지 기업인 바이두와 메이투의 거대언어모델(LLM)을 활용하였다. 중국연구소는 광둥어의 문어체와 구어체 간의 차이, 성조, 영어가 섞인 사용법 등과 같은 복잡한 언어적 특성을 반영해 AI 솔루션을 개발했고, 이로 인해 삼성의 갤럭시 AI는 중국과 홍콩 시장에서 큰 반향을 일으키며 성공적으로 자리 잡을 수 있었다.

▲AI 모델을 학습시키기 위해서는 좋은 데이터를 많이 확보하고, 검증하고, 정리하는 과정이 선행되어야 한다

[인도] 대학과의 협업으로 20개 방언 데이터 확보해 개발한 ‘갤럭시 AI’

인도는 인구가 많고 언어도 다양한 나라로, 그중 힌디어는 약 6억 명이 사용하는 대표적인 언어이다. 힌디어는 다양한 지역 방언과 영어 혼용, 존댓말 및 성별 구분 등으로 외국인이 배우기 어려운 언어로 알려져 있다.

이런 힌디어의 복잡한 특성을 반영해 갤럭시 AI에 적용하고자, 삼성전자의 인도 벵갈루루 연구소는 현지 대학들과 손을 잡았다. 벵갈루루 연구소와 벨로르 공과대학(VIT)이 공동으로 연구팀을 구성하여, 20개가 넘는 힌디어의 지역 방언 관련 데이터를 모두 반영하고, 영어 혼용 데이터 역시 학습시킨 AI 모델을 만들었다.

[폴란드] 유럽의 중심부에서 통번역 서비스를 전문화하는 ‘갤럭시 AI’

삼성전자 폴란드 연구소(SRPOL)는 유럽의 4개 시간대를 넘나들며 30개 이상의 언어 서비스를 개발하고 있다. 이곳은 갤럭시에 빅스비가 탑재된 이후로 다양한 국가와 언어 프로젝트를 수행해 온 경험이 있고, 지금도 원격 협업을 통해 언어 검증과 AI 개발을 확대하고 있다.

폴란드 연구소는 AI 언어 모델 개발에서 언어와 문화적 차이를 극복하는 데 중점을 뒀다. 각각의 언어와 문화마다 상황에 대한 인식이 다르므로 번역이 어려울 때가 있지만, 연구소는 부서 간 효율적인 커뮤니케이션과 의사결정 과정을 간소화함으로써 이러한 문제들을 해결하고 있다. 다양한 팀 간의 상호 이해와 지원을 통해 갤럭시 AI는 문화를 통합하고 언어 장벽을 허물어가는 데 중요한 역할을 수행하고 있다.

[일본] 생성형 AI로 학습 데이터 보강해 정교함을 더한 ‘갤럭시 AI’

일본어는 음가의 수가 제한되어 있어 동음이의어가 많아, 통번역을 진행할 때는 문맥을 고려해 의미를 판단해야 하는 어려움이 있다. 그만큼 정확한 의미 판단이 어렵기 때문에 음성 인식의 정확도를 높이려면 방대한 데이터가 필요하다.

일본 연구소(SRJ)는 삼성전자의 대규모 언어 모델인 삼성 가우스를 사용해 데이터를 확보하고, 녹음 데이터와 텍스트 음성 변환(TTS)으로 생성된 데이터를 모두 활용해 효율성과 정확도를 높였다. 마지막 단계에서는 사람이 직접 검사하여 정확한 데이터가 반영될 수 있도록 했다.

최근 모바일 AI 전문가들이 모인 토론 행사에서 삼성전자 MX사업부 개발실장 최원준 부사장은 “우리는 사람을 위한, 협력을 통한, 안전을 향한 AI를 추구한다”라며 “2024년에는 2억 대의 모바일 기기에 갤럭시 AI 경험을 제공할 예정”이라고 밝혔다.