[릴레이 인터뷰로 만나는 미래 기술] ② 언어와 소리가 지닌 힘을 연구하다… 삼성리서치 폴란드 연구소

2021/10/01

본문듣기 AUDIO Play

공유하기 공유 레이어 열기

공유 레이어 열기/닫기

주소가 복사되었습니다.

(1편에 이어)

뉴스룸은 삼성리서치 해외연구소 6곳의 연구원들을 차례로 만나 삼성전자 제품 경쟁력의 밑바탕인 차세대 기술과 연구 분야, 그리고 이들의 연구가 보다 나은 삶을 위해 어떻게 기여하고 있는지를 소개한다.

삼성 리서치 거점 연구소와 그곳에서 일하는 연구원들

릴레이 인터뷰 두 번째 주자는 삼성전자 폴란드 연구소(Samsung R&D Institute Poland, SRPOL)의 인공지능(Artificial Intelligence, AI)팀장 우카쉬 스와빈스키(Lukasz Slabinski)다. 2013년 선임 엔지니어로 폴란드 연구소에 합류한 그는 현재 인공지능 팀을 이끌며 AI에 관련된 다양한 연구를 진행하고 있다. 아래를 통해 우카쉬와 나눈 대화를 소개한다.

[릴레이 Q&A] Q: 음성 인식은 다른 인식보다 복잡성이 더 가중되는 분야로 알고 있다. 이로 인해 생기는 어려움을 어떻게 극복하고 성과를 내고 있는지 궁금하다. - 세르게이 리트비넨코 (삼성리서치 우크라이나 연구소) A: 음성 언어는 변수가 너무 많고 듣는 사람에 따라 해석도 달라 매우 복잡하기 때문에 ‘기계 학습’ 방식에 기반한 1) 수많은 언어 데이터의 정교한 수집, 2)일반적 패턴 추출과 모델링, 3)기계 학습 시스템 최적화를 위한 반복 학습 등이 필요하다. 이 과정에서 우리는 다양한 접근과 혁신을 도모하고 있다. - 우카쉬 스와빈스키 (삼성리서치 폴란드 연구소)

Q. 음성 인식은 다른 인식보다 특히 더 복잡한 분야로 알고 있다. 이로 인해 생기는 어려움을 어떻게 극복하고 성과를 내고 있는지 궁금하다.

언어와 관련된 기술이 복잡한 이유는 문화적, 지역적 특성에 따라 다양한 억양, 방언 등으로 진화된 약 7,000여개의 수많은 언어가 존재하기 때문이다. 음성 언어로 의사소통할 때, 말하는 사람은 한 뭉치의 소리로 생각을 전달하고, 듣는 사람들은 이를 해석하는데, 이 과정에서는 개인적, 창조적인 해석이 가능하다. 이러한 과정 덕분에 아름다운 시, 재미있는 농담 등이 존재하는 한편, 대화 중 오해가 생기기도 하는 것이다. 따라서, 음성 언어 기반의 의사소통은 시각 지능 등 다른 인식 보다 수학적으로 설명하기 모호하고 어렵다.

일상생활에서 우리는 가족이나 직장 동료 등 가까운 사이에도 명확한 의사소통이 어려운 경우를 종종 경험할 때가 있다. 그렇다면 자연어 처리를 연구하는 개발자들은 어떻게 수십 개의 다른 언어들을 위한 기계 번역 시스템을 설계할 수 있을까? 이를 가능하게 하는 것은 바로 ‘기계 학습’이다.

트레이닝 또는 학습이라고 불리는 과정을 통해 우리는 많은 데이터들로부터 뽑은 예제에서 일반적인 패턴을 자동 추출하고 모델 형태로 정리한다. 기계 번역 시스템 구축을 예로 들어보자. 우리는 정교하게 수집, 정제된 수백만 개 사례들을 바탕으로 다른 언어의 문장들을 패턴화하기 위해 신경 네트워크를 학습시킨다. 이 복잡하고 어려운 과정에는 해결해야 할 세 가지 근본적인 과제들이 있다.

△주어진 문제에 대한 충분한 언어 패턴을 기록하고 일반화할 수 있는 기계학습 모델 구조 설계, △충분한 학습 데이터 베이스 확보, △이미 학습된 모델을 클라우드 또는 온 디바이스와 같은 전용 플랫폼에 적용하기 위해 최적화하는 것이 그것이다.

우리는 최고 수준의 전문가, 데이터 확보를 위한 다양한 접근, 그리고 끝없는 혁신과 연구를 통해 이를 해결해나가고 있다.

Q: 폴란드 연구소에 대해 간략히 소개해 달라.

폴란드 내 최대 규모의 소프트웨어 연구소 중 하나인 우리 연구소는 수도인 바르샤바(Warsaw)와 문화, 기술의 중심지인 크라코프(Cracow), 두 곳에 위치하고 있으며, 현지 우수 대학, 연구 기관 등과의 긴밀한 협력을 통해 다양한 분야의 기술을 선도하고 있다.

폴란드 연구소와 인공지능 팀은 고객의 삶을 편리하고 풍요롭게 하는 AI 기반 기능, 도구, 서비스를 연구하고 개발하는 일을 하고 있다. 또한 자연어 처리와 청각 지능(Audio Intelligence) 분야에 집중하고 있으며 이 외에도 추천 시스템, 실내 측위 (Indoor Positioning), 시각 분석, AR (Augmented Reality, 증강 현실)에도 전문 기술을 보유하고 있다.

Q: 2018년부터 폴란드 연구소의 인공지능 팀을 이끌어 오면서 자연어 처리에 관련된 프로젝트와 그 외 분야에 관련한 프로젝트를 여럿 총괄해왔다. 현재 인공지능 팀이 하고 있는 일은 무엇인지?

지난 몇 년간, 인공지능 팀은 혁신적이면서도 도전적인 수많은 프로젝트들을 수행했다.

자연어 처리 분야 관련해서는 기계 번역, 질의응답을 포함한 대화 시스템, 텍스트 분석과 같은 시스템 개발을 10여 년째 수행해오고 있다. 크게, △많은 사용자들이 동시에 접속하여 서비스를 받을 수 있는 클라우드 기반 솔루션과 △통신 네트워크 연결 없이도 서비스를 제공할 수 있는 온 디바이스 솔루션, 이 두 가지 측면에서 연구 개발을 진행 중이다.

청각 지능은 최근 중요성이 대두되고 있어, 수년 전부터 폴란드 연구소의 연구 역량을 집중하고 있는 분야다. 소리 인식과 분석, 음원 분리, 음질 향상을 연구한다. 소리 분석을 통한 주변 상황 이해부터 무선 이어폰 같이 하드웨어 자원이 매우 제한적인 기기의 내장 오디오 알고리즘 개발까지 오디오 신호 처리에 관련된 모든 단계의 연구를 수행하고 있다.

삼성전자 폴란드 연구소(Samsung R&D Institute Poland, SRPOL)의 인공지능(Artificial Intelligence, AI)팀장 우카쉬 스와빈스키(Lukasz Slabinski)

Q: 폴란드 인공지능 팀이 연구하고 있는 자연어 처리, 텍스트와 데이터 마이닝, 청각 지능 분야는 사용자의 일상 변화에 어떤 기여를 하고 있나.

폴란드 연구소는 한국의 연구팀을 포함한 다른 연구소들과의 긴밀한 협업을 통해 제품, 기술 상용화에 오랜 시간 동안 기여해왔다.

대표적인 예가 사용자들의 모바일 기기 텍스트 입력을 보다 편리하게 돕는 ‘지능형 텍스트 입력 기능 개발’이다. 온 스크린 키보드에서의 단어 추천과 맞춤법 교정, 해시태그 추천 기능, 삼성 노트 앱의 제목 추천, 스마트 워치의 스마트한 텍스트 입력과 같은 기능을 구현했다.

아울러, 삼성전자 스마트폰 사용자의 선호도를 분석하여 게임을 추천하는 시스템을 개발, 갤럭시 스토어에 탑재했다.

또, 삼성 ‘제트 봇 AI(JetBot AI)’의 펫 케어 솔루션을 위한 핵심 기능 중 하나인 반려견 짖음 소리 감지에도 기여했다. 이 외에도, 삼성전자 제품 전반에 걸쳐서 AI 기반의 여러 소리 인식 기술을 개발했다.

Q: 현재 주목하고 있는 업계의 주요 트렌드는 무엇인가? 이 기술이 사람들의 일상생활에 어떤 영향을 미칠지 궁금하다.

청각 지능은 소리 인식과 분석, 음원 분리, 음질 개선 등을 연구하는 분야다. 앞으로 전자 제품과 사용자 간 상호작용을 혁신하는 ‘게임 체인저’가 될 거라 예상한다. 청각 지능 본연의 기술 연구도 중요하지만, 혁신적인 솔루션을 제공하기 위해선 인간 중심의, 진화된 청각 지능 기반 시스템 연구가 무엇보다 중요하다고 생각한다.

자연어 처리 시스템은 말과 글로 표현된 사용자의 의도를 분석하고, 컴퓨터 비전 알고리즘은 카메라와 시각적 콘텐츠로 이뤄진 결과물을 분석한다. 오늘날 대부분의 사람들에게 내비게이션 없이 운전하거나, 맞춤법 교정 기능 없이 메시지를 입력하는 것, 인터넷 없이 정보를 검색하는 것은 상상하기 힘든 일이다. 청각 지능 기술도 이처럼 조만간 보편적으로 사용될 것으로 전망한다.

사람들이 무엇을, 어떻게 들을지 선택하게 해주는 기술이 있다고 상상해 보자. 예를 들어, 도심 속 공원에서 친구와 점심을 먹을 때, 자연의 소리와 상대방의 말소리만을 선택적으로 들을 수 있을 것이다. 혹은 최근 주목받고 있는 메타버스(Metaverse)라고 불리는 첨단 VR, AR 시스템을 생각해보자. 이 두 가지 개념만으로도 수백 가지의 새로운 유스 케이스(Use Case)를 만들어 낼 수 있다.

인간은 다양한 소리 중 좁은 영역의 소리만을 들을 수 있다. 우리의 세상은 유의미한 소리로 가득 차 있지만, 대부분은 현재의 AI 기술이 진입하지 않고 있다. 청각 지능 기술의 발전과 함께 열리는 새로운 ‘소리 세상’이 사람들의 삶을 크게 변화시킬 거라고 믿는다.

▲ 음향측정을 위한 무향실에서 HATS(Head & Torso Simulator)를 통해 액티브 노이즈 캔슬링(ANC, Active Noise Cancellation) 기술을 연구하고 있는 삼성전자 폴란드 연구소(Samsung R&D Institute Poland) 연구원들

Q: 폴란드 연구소에서 보는 요즘 기술 트렌드가 무엇인지 궁금하다.

자연어 처리와 같은 전통적 연구와 더불어, 시각, 청각 등 다중 감각, 즉 감각을 통합적으로 이용해 사람과 같은 인지적 특성을 가지는 ‘진정한 다중양식(Multimodal) 시스템’을 구축하기 위한 가장 효과적인 방법을 모색하고 있다. 이를 위해 분야별 전문 엔지니어, 언어학자, 데이터 과학자, 그 외 여러 분야의 연구원들로 팀을 구성, 다양한 관점에서 연구하며 유스 케이스를 분석하고 있다.

Q: 폴란드 연구소에서 이룬 성과 중, 가장 기억에 남는 성과는 무엇인지?

‘기계 번역 솔루션’을 꼽고 싶다. 2017년부터 2020년까지 4년 연속 ‘음성 언어 번역 국제 워크숍(International Workshop on Spoken Language Translation, IWSLT)’에서 우승했고, 2020년에는 ‘기계 번역 워크숍(Workshop on Machine Translation, WMT)’, 2021년에는 ‘아시아 번역 워크숍(Workshop on Asian Translation, WAT)’ 등 다양한 대회에서 우승을 거뒀다. 모두 기계 번역 분야에서 유명한 국제 대회들이다.

특히, 아시아 번역 워크숍은 아시아 언어에 대한 이해도나 개발 경험이 없는 폴란드 엔지니어가 솔루션을 개발하는 과정이었기 때문에 그 어떤 언어 확장보다 도전적이었다. 우승이라는 성과를 넘어, 폴란드 연구소의 기술 리더십을 입증한 결과라 더욱 자랑스럽다.

또한 짧은 시간에 커다란 성장을 이룬 청각 지능팀의 성과도 빼놓을 수 없다. 아무것도 없는 상태로 시작해, 2019년과 2020년에는 2년 연속 ‘청각 장면과 사건의 감지와 분류(Detection and Classification of Acoustic Scenes and Events)’ 워크숍에서 연단에 섰다. 이 외에도 과학 학술지를 통해 연구 발표도 하고 특허도 작성하는 등 다양한 활동을 하고 있다. 앞으로 추진해 나갈 활동에 든든한 밑거름이 될 거 같다.

“안녕하세요. 빈! 우카쉬예요. 머신러닝은 AI의 주요 기반 기술 중 하나인데요. 그래서인지, 때때로 ‘AI’와 ‘머신러닝’이라는 용어가 상호호환되어 쓰이기도 합니다. 새로운 머신러닝 알고리즘 연구에서 두 분야의 협업은 필수이기 때문에, 머신러닝을 연구하는 동료들에게 많은 도움도 받고 있습니다. 새로운 머신러닝 알고리즘을 개발할 때 많은 한계에 부딪칠 텐데, 이를 해결하기 위한 베이징 연구소의 혁신적 도전과 노력을 알고 싶습니다.”

삼성전자 중국 베이징 연구소의 ‘빈 다이’ 연구원의 인터뷰와 질문에 대한 답변은 3편에서 만날 수 있습니다.

TAGSAI 전문가 릴레이 인터뷰로 만나는 미래 기술 삼성리서치 폴란드 연구소

삼성전자 뉴스룸의 직접 제작한 기사와 이미지는 누구나 자유롭게 사용하실 수 있습니다.
그러나 삼성전자 뉴스룸이 제공받은 일부 기사와 이미지는 사용에 제한이 있습니다.
<삼성전자 뉴스룸 콘텐츠 이용에 대한 안내 바로가기>