갤럭시 AI 글로벌 연구소 1화: 인도네시아(SRIN)
프리미엄 모바일 AI 경험을 선도하고 있는 삼성전자는 갤럭시 AI 확산을 위해 많은 노력을 기울이고 있다. 그 결과 현재 갤럭시 AI의 지원 언어가 16개로 확대됐고 온디바이스 실시간 통번역, 노트 어시스트, 브라우징 어시스트 등을 활용해 보다 많은 사람들이 오프라인에서도 자유로운 소통을 누리게 됐다. 그렇다면 AI 언어 개발은 어떤 과정을 거쳤을까? 그 첫번째 스토리로 인도네시아 연구소를 찾아가 봤다.
삼성리서치 인도네시아 연구소(SRIN)는 최근 갤럭시 AI에 인도네시아어를 추가하는 데 성공했다.
전 세계 2억 명 이상의 인구가 사용하는 인도네시아어는 관사와 복수형이 없고 동사 시제 변화도 없어서 배우기 쉬운 것으로 알려져있지만 그만큼 맥락을 충분히 파악해야 정확히 이해할 수 있어 번역이 간단치 않은 언어다.
갤럭시 AI에 인도네시아어 번역 기능을 담는 임무를 맡은 SRIN은 인도네시아어의 이런 특성을 감안해 양질의 데이터를 확보하는 작업에 집중했다.
SRIN의 주나이딜라 파들릴 AI 파트장은 “훌륭한 AI는 관련성이 높은 양질의 학습 데이터에서 출발한다”면서 “특히 언어마다 서로 다른 데이터 접근 방식이 요구되기 때문에 현지의 언어적 필요성과 고유의 환경을 이해하기 위한 심층적인 연구를 거친다”고 설명했다.
그러면서 “갤럭시 AI에 언어 옵션을 추가하는 전 과정은 현지의 법적, 윤리적 기준에 맞춰 어떤 종류의 데이터를 어떻게 확보할지 계획하는 것에서 시작한다”고 덧붙였다.
“인도네시아어 번역은 고난도 작업”
갤럭시 AI의 통화 중 실시간 통역 기능은 크게 자동 음성인식(ASR), 인공신경망 기반 기계번역(NMT), 텍스트 음성 변환(TTS) 등 세가지 프로세스를 거친다.
갤럭시 AI에 인도네시아어를 추가한 것도 이런 프로세스를 기반으로 진행됐으며, SRIN은 단계별로 다른 데이터 세트를 확보했다.
우선 자동 음성인식(ASR) 단계의 경우 다양한 환경의 배경 소음이 들어있는 데이터를 대량 확보함으로써 실제 사용 환경에서 인식 정확도를 높였다.
무클리신 아디 사푸트라 ASR 리더는 “녹음된 음성 데이터에 인위적인 소음을 추가하는 것만으로는 충분하지 않다“면서 “파트너와 협업으로 확보한 언어 데이터 외에도 시끄러운 카페나 사무실 등 일상적 소음 환경에서 음성 녹음이 필요하다”고 말했다.
신조어와 같이 지속적으로 변화하는 언어의 특성도 반드시 고려해야 하는데, SRIN은 인도네시아의 다양한 소셜미디어에서 이런 정보를 찾아냈다.
인도네시아어를 갤럭시 AI에 추가하는 데 특히 중요한 과정이 인공신경망 기반 기계번역(NMT)이다.
이 방식은 사람의 뇌가 학습하는 과정을 본뜬 기술로 단어나 구문 단위로 쪼개는 것이 아니라 문장 단위로 번역하는 것이다.
다른 언어도 마찬가지지만 인도네시아어의 경우 특히 사회적 상황에 따라 다른 맥락과 암묵적인 의미를 내포하는 경우가 많기 때문에 AI가 의사소통의 맥락과 규칙을 이해할 수 있도록 학습시켰다는 게 SRIN의 설명이다.
무하마드 파이살 NMT 리더는 “인도네시아어 번역은 고난도의 작업“이라면서 “AI에 대량의 번역된 텍스트 데이터를 제공해 새로운 단어, 외래어, 고유명사, 관용어 등을 학습할 수 있게 했다”고 말했다.
마지막으로 텍스트 음성 변환(TTS) 기능에는 여러 형태의 음성과 톤이 포함된 데이터가 필요한데, 다양한 상황에서 인도네시아어 단어의 일부가 어떻게 발음되는지 등에 대한 정보가 요구된다.
하리츠 압두로만 TTS 리더는 “양질의 음성 데이터로 작업의 절반을 수행할 수 있다“면서 “성우가 초반 작업을 마치고 나면 다음 과제는 AI 모델이 특정 단어를 정확하게 발음할 수 있도록 한다”고 설명했다.
뭉쳐야 산다…전문가·전세계 SR과 협업
SRIN은 인도네시아어를 갤럭시 AI에 추가하는 과정에서 언어학 전문가, 전 세계 삼성리서치와 긴밀하게 협력했다.
파들릴 AI 파트장은 “인도네시아어와 머신러닝에 대한 전문성, 창의성, 통찰력이 필요했다”면서 “개방형 협업을 토대로 글로벌 네트워크를 활용했을 뿐만 아니라 과거부터 이어온 삼성리서치의 AI 개발 경험이 큰 도움이 됐다”고 말했다.
실제로 SRIN은 인도 등 다른 해외 연구소와 협업해 복잡한 데이터 목표 설정 과정을 성공적으로 수행했으며, 특히 기술뿐만 아니라 문화적 측면에서도 유대감을 형성할 수 있었다고 강조했다.
갤럭시 AI에 인도네시아어가 추가된 것은 SRIN에 각별한 의미가 있다.
파들릴 AI 파트장은 “이번 성과는 우리 연구소의 첫 번째 AI 프로젝트”라면서 “앞으로도 AI 모델을 지속 발전시켜 양질의 서비스를 제공할 수 있도록 할 것”이라고 말했다.
그러면서 “이번 프로젝트를 통해 삼성전자의 가치를 반영할 뿐만 아니라 언어를 통해 사용자들의 문화적 정체성과 자부심을 AI 기능에 투영할 수 있었다”고 덧붙였다.
본 시리즈의 제2화에서는 아랍어 프로젝트를 이끈 요르단으로 향해 다양한 방언과 복잡한 여건 속에서 AI를 구축한 과정을 살펴본다.
삼성전자 뉴스룸의 직접 제작한 기사와 이미지는 누구나 자유롭게 사용하실 수 있습니다.
그러나 삼성전자 뉴스룸이 제공받은 일부 기사와 이미지는 사용에 제한이 있습니다.
<삼성전자 뉴스룸 콘텐츠 이용에 대한 안내 바로가기>