인식∙화질∙압축… 첨단 인공지능, 삼성전자 제품 탑재 준비 완료!

2017/10/25
공유 레이어 열기/닫기
주소가 복사되었습니다.

삼성전자 뉴스룸이 직접 제작한 기사와 사진은 누구나 자유롭게 사용하실 수 있습니다.스페셜리포트 삼성전자, 기술로 말하다, 5, 'AI 활용' 편 스페셜 리포트는 풍부한 취재 노하우와 기사 작성 능력을 겸비한 뉴스룸 전문 작가 필진이 새롭게 선보이는 기획 콘텐츠입니다. 최신 업계 동향과 IT 트렌드 분석, 각계 전문가 인터뷰 등 다채로운 읽을거리로 주 1회 삼성전자 뉴스룸 독자 여러분을 찾아갑니다.이 글은 삼성전자 DMC연구소에서 AI 개발 실무를 담당하고 있는 (왼쪽부터)최광표∙이태미∙이재원∙김일구씨와의 인터뷰 내용을 기반으로 작성됐습니다. 최광표∙이태미씨는 차세대미디어팀 미디어알고리즘랩, 이재원∙김일구씨는 융복합기술팀 차세대인식랩에서 각각 근무하고 있습니다

AI. ‘인공지능(Artificial Intelligence)’의 줄임말이다. 현대인의 일상에 이미 깊숙이 들어와 ‘상식’ 수준으로까지 통용되는 이 단어가 대중에게 특히 익숙해진 계기 중 하나는 영화 감독 스티븐 스필버그의 2001년작 ‘AI’였을 것이다. 사람과 똑같이 섬세한 외관을 갖춘 인공지능 로봇 ‘데이비드’가 주연이었던 이 영화가 개봉된 이후 AI는 웬만한 사람들 사이에서 로봇과 거의 같은 뜻으로 이해됐다.

수학을 쓰고 있는 인공지능 로봇

지난해 3월, 프로 바둑 기사 이세돌 9단과 알파고 간 ‘세기의 대결’이 성사되며 인공지능은 대중의 머릿속에 다시 한 번 각인됐다. 다만 개념 확산 측면에서의 파급력은 영화가 공개됐을 때보다 훨씬 컸다. 사람들은 인공지능에 대해 “무수한 데이터를 선행 학습, 스스로 일정 유형(pattern)을 찾아낸 후 인간과 거의 비슷한 수준의 판단을 내릴 수 있는 컴퓨터 프로그램”이라고 생각하기 시작했다. 비교적 탄탄한 배경 지식을 갖춘 이라면 “인간 신경망과 유사한 방식으로 작동되는 컴퓨터 알고리즘”이라는, 보다 정교한 정의를 내리게 됐을지도 모른다.

딱 그 수준이었다. 삼성전자의 DMC연구소의 인공지능 응용연구 실무진과의 인터뷰를 시작하기 전까지, 인터뷰이의 연구 분야가 각각 △음성∙영상 인식 △화질(畵質) △압축이란 사실을 알곤 잠시 혼란스러워졌다. ‘음성 인식이라면 스필버그 영화 속 데이비드 같은 로봇을 만들 때 필요한 기술이겠군. 근데 영상 인식과 화질, 압축이라고?’

“요즘 인공지능이라고 하면 신경망과 연관 지어 생각하는 경향이 짙은데요. 사실 AI 연구 범위는 일반인의 생각보다 꽤 넓습니다. 이를테면 머신러닝(machine learning) 전반과 그에 관련된 로직(logic) 구성 방식까지 포함하죠. 따지고 보면 꽤 오래전부터 존재해오던 학문 분야라고 할 수 있습니다.” 음성 인식 분야 실무를 담당하고 있는 이재원(삼성전자 DMC연구소 융복합기술팀 차세대인식랩)씨의 설명을 시작으로 ‘삼성전자와 AI 간 접점 찾기’ 시도가 본격적으로 시작됐다.

‘소음 잡고 사투리 구분하는’ 음성 인식… 영상 인식, 쇼핑∙번역 기능 만나면 가능성 무한대

Bixby 화면

음성 인식은 SF 영화 속 로봇을 작동시키는 장면 등에서 누구나 꽤 친숙하게 접했을 법한 기능이다. 시각적 상상과는 다소 거리가 있을지 몰라도 오디오 차원에 관한 한 ‘사람 지시를 이해해 그에 대응하는’ 로봇은 이미 여럿 개발돼 일상에서 사용되고 있다. 빅스비(Bixby∙삼성전자)와 시리(Siri∙애플), 에코(Echo∙아마존) 등이 모두 이에 해당된다.

음성 인식을 제대로 구현하려면 주변 소음과 화자(speaker)의 발음을 구분, 소음을 자동으로 제거하고 화자 말소리 중에서도 기본 구성 음소를 또렷하게 드러내는 부분만 기기 리시버(receiver)에 전달하는 기술이 뒷받침돼야 한다. 또한 여럿이 한꺼번에 말할 때 특정인의 음성을 구분해내고 사투리∙억양 등 개인차가 존재하는 변이까지 감안, 불필요한 부분을 제거한 정보를 기기 대응(reaction) 부분에 전해야 한다.

영상 인식은 음성 같은 청각 정보가 아니라 시각 정보를 처리하는 기술이다. 예를 하나 들어보자. 당신이 어떤 카페에 갔다가 아주 마음에 드는 찻잔을 발견했다. 종업원에게 “이 제품을 어디서 구할 수 있느냐”고 물었지만 찻잔을 직접 구매하지 않은 터라 종업원도 아는 게 없는 상황이라면? 이럴 때 삼성전자가 개발한 영상 인식 기술 ‘빅스비 비전’이 탑재된 갤럭시 S8이 있으면 문제는 생각보다 간단하게 해결된다. 빅스비 비전 기능을 선택, 찻잔 사진을 찍기만 하면 어느 브랜드 제품이고 어디서 살 수 있는지, 가격은 얼마인지 등의 정보를 곧바로 띄워주기 때문. 구매를 결심했다면 주문 후 결제까지 ‘원스톱’으로 처리할 수 있다. 만약 해당 제품의 판매처가 (한국어가 아닌) 다른 언어로 운영되는 곳이라면 빅스비 번역 시스템을 통해 제공 언어를 한국어로 변환할 수도 있다.

어느 정도 공통 구조를 갖고 있는 언어와 달리 이미지는 보는 이에 따라 해석의 폭이 굉장히 다양해질 수 있다. 영상 인식이 간단찮은 기술인 까닭이다. 다행인 건 SNS에 올려진 사진 등은 특정 주제(나 항목)에 대한 선호도 등 사용자 관련 정보를 꽤 많이 담고 있단 사실이다. 따라서 이 경우엔 각 사진의 의미를 파악하고 사용자 선호 정보와 결합, 서비스에 연동하는 기술이 중요해진다. 대표적 예가 콘텐츠(상품) 추천이다. 이를 위해 영상 인식 기술에선 사용자가 주로 쓰는 서비스나 애플리케이션 사용 유형 등을 파악, 영상 분석 시 적극 활용한다. 제품 구매나 검색 이력, SNS 사용 습관 등도 참고할 수 있다(물론 사용자의 사전 동의는 필수다). 이런 데이터까지 전부 포괄해 처리하는 영상 인식 기술도 AI 알고리즘을 적용하면 얼마든지 구현이 가능해진다.

원본 화질 자체 검색∙분석… 스마트폰 ‘직캠’ 대형 TV서 재생해도 뭉개지지 않고 선명하게

AI는 화질 성능 개선 작업에도 널리 활용될 수 있다. 최근 영상(이미지) 재생 기기 종류가 다양해지며 스크린 크기와 무관하게 최적의 화질로 영상(이미지)을 감상하려는 수요도 급증하고 있다. 이런 추세는 오래전 찍어 보관해둔 영상에서부터 몇 시간 전 스마트폰으로 촬영한 ‘직캠’까지 실로 다양한 화질의 영상이 유통되는 현실과도 무관하지 않다. 날로 커지는 TV 화면으로 이런 영상을 감상했을 때에도 영상이 뭉개지지 않게 하려면, 그것도 기존 인터넷 대역폭을 통해 재현되게 하려면 어떻게 해야 할까? AI는 이 질문에 마침맞은 대답일 수 있다.

AI는 화질 성능 개선 작업에도 활용될 수 있다. 오른쪽 사진은 삼성전자의 AI 화질 향상 기술로 뭉개지기 쉬운 원본 화질 성능을 개선시킨 이미지▲AI는 화질 성능 개선 작업에도 활용될 수 있다. 오른쪽 사진은 삼성전자의 AI 화질 향상 기술로 뭉개지기 쉬운 원본 화질 성능을 개선시킨 이미지

AI를 활용한 화질 처리 과정엔 단순히 비트 수를 줄여 데이터를 송∙수신하고 재현하는 것 이상의 기술적 차별성이 있다. 원본의 해상도가 그리 높지 않거나 화면 정보 손실이 큰 경우에도 AI는 스스로 검색∙분석해 필요한 정보를 확보한 후 고화질 화면으로 변환, 재생할 수 있다.

기술자(인간)가 미처 인식하지 못하는 부분까지 복원해주는 것이다. 이때 기술자의 역할은 AI가 효율적으로 작동될 수 있는 구조 설계 정보를 입력하고 학습 방향을 설정해주는 것 정도다. 물론 상당한 노력과 비용, 그리고 엄청난 데이터와 서버 사용이 전제돼야 한다.

데이터 압축 시 손실 정도 ‘용의주도하게’ 조절한 알고리즘 개발… 성능∙속도 둘 다 잡았다

최광표∙이태미∙이재원∙김일구씨의 사진▲이날 인터뷰에 응한 네 명의 개발진은 지난달 미국 뉴욕에서 개최된 ‘삼성 글로벌 AI 포럼’에 참석, AI 분야 세계 석학들과 활발하게 의견을 교류하기도 했다

압축(compression)은 당초 제시됐던 형태보다 더 작은 수의 비트(bit)를 활용, 정보를 코드로 만드는(encode) 과정이다. 정보가 압축되면 줄어든 용량만큼 전송 속도가 빨라진다. 또한 대역폭(bandwidth) 내 점유율이 줄어 같은 용량의 인터넷 선을 쓰더라도 더 많은 데이터를, 더 효율적으로 전송할 수 있게 된다.

단, 압축된 정보를 수신하려면 코드 판독(decode) 절차를 거쳐야 한다. 이메일로 고용량 파일을 주고받을 때 흔히 경험하게 되는 행동이다. 즉 압축된 파일을 받았다면 ‘압축 풀기’ 명령을 실행한 후 작업이 끝날 때까지 기다려야 한다. 하지만 날로 발전하는 기술은 이 대기 시간조차 줄이거나 없애고 있다. 실제로 최근 출시되는 IPTV[1] 수신 장치 등 고용량 데이터 수신∙재현 기기는 사용자의 별도 지시 없이도 자체적으로 빠르게 압축을 풀어 (마치 아무 일 없었다는 듯) 자연스레 화면을 재생해낸다.

용량이 큰 데이터를 압축하는 방식은 크게 두 가지로 나뉜다. 데이터 손실이 전혀 없도록 하는 방법이 하나, ‘용의주도하게’ 손실시키는 방법이 다른 하나다. 데이터 손실을 피하면서도 압축되게 하려면 그에 맞는 알고리즘을 적용, 지시를 내려야 한다. 가령 빨간 장미 사진을 전송한다고 해보자. 특정 부분에서 빨간색 픽셀이 213개 연속돼 있으면 ‘red’를 213회 쓰는 게 아니라 ‘213 reds(213개의 빨간색)’이라고 써주는 식이다.

하지만 이런 방법으로 압축하려면 상황별 알고리즘을 일일이 만들어야 해 여간 번거롭지 않다. 설사 모든 작업을 완료한다 해도 효율성 측면에서 높은 점수를 매기기 어렵다. 따라서 데이터를 압축할 땐 언제나 균형점을 택하는 일, 즉 ‘트레이드오프(trade-off)’를 유념해야 한다. 알고리즘을 적용, 살린 채 전송할 데이터와 과감히 지워지도록 내버려둔 데이터를 미리 결정해야 하는 것이다. ‘살려야 하는 데이터를 되도록 축소해 보냈다 다시 복원할 수 있게 해주는’ 알고리즘(과 그 작업을 구현해낼 기기)을 개발하는 일도 그 못지않게 중요하다.

사실 말로 하긴 쉽지만 정보 압축 절차엔 일반인이 상상하기조차 힘들 만큼 복잡한 알고리즘이 동원된다. 그림 한 장을 보내는 상황만 해도 그렇다. 크기를 확대해도 화소가 깨지지 않고 정교한 색감과 선형이 유지되도록 하려면 수십 만, 아니 수백 만 개 픽셀이 재현되는 방식을 일일이 지정해주는 알고리즘을 만들어 적용해야 하기 때문이다.

바로 이 지점에서 AI의 활약이 빛을 발한다. 가령 무수한 데이터 처리 방식을 선행학습으로 입력시켜둔 AI라면 비슷한 유형의 픽셀 배열을 확인했을 때 최적의 방식으로 ‘버릴 건 버리고 (비트 수를 줄여) 담을 건 담는’ 작업을 순식간에 해치울 수 있기 때문이다. 머신러닝이나 딥러닝(deep learning)처럼 ‘무수한 유형을 입력한 후 그 사이에서 컴퓨터가 스스로 법칙성을 찾아가게 하는’ 기술을 압축 담당 인공지능에 적용하는 형태다(관련 내용은 지난해 3월 23일자 스페셜 리포트 <“인공지능의 미래가 두렵다”는 당신에게> 편에서 한 차례 다뤄진 적이 있다).

AI를 활용한 데이터 압축 분야에서 삼성전자의 기술 수준은 가히 세계 최고다. 실제로 AI를 쓰지 않고 일일이 계산하는 코덱을 적용했을 때와 비교했을 때 압축 성능은 5배에 이른다. 다시 말해 같은 양의 데이터라면 기존 방식보다 5배 빠른 속도로(혹은 대역폭의 20%만 사용해) 전송할 수 있단 얘기다.

삼성전자는 데이터 압축 분야에서 AI를 활용, 이전보다 5배 높은 성능을 구현한다. 가운데 사진은 기존 압축기술(HEVC)을 활용한 상태, 맨 아래쪽 사진은 AI 압축 기술을 적용한 상태다. 강한 압축에도 원본급 화질이 유지되는 걸 확인할 수 있다삼성전자는 데이터 압축 분야에서 AI를 활용, 이전보다 5배 높은 성능을 구현한다. 가운데 사진은 기존 압축기술(HEVC)을 활용한 상태, 맨 아래쪽 사진은 AI 압축 기술을 적용한 상태다. 강한 압축에도 원본급 화질이 유지되는 걸 확인할 수 있다삼성전자는 데이터 압축 분야에서 AI를 활용, 이전보다 5배 높은 성능을 구현한다. 가운데 사진은 기존 압축기술(HEVC)을 활용한 상태, 맨 아래쪽 사진은 AI 압축 기술을 적용한 상태다. 강한 압축에도 원본급 화질이 유지되는 걸 확인할 수 있다▲삼성전자는 데이터 압축 분야에서 AI를 활용, 이전보다 5배 높은 성능을 구현한다. 가운데 사진은 기존 압축기술(HEVC)을 활용한 상태, 맨 아래쪽 사진은 AI 압축 기술을 적용한 상태다. 강한 압축에도 원본급 화질이 유지되는 걸 확인할 수 있다

사용자 입장에서도 이 기술은 혁신적이다. 인터넷 선을 추가로 확장하지 않고도 대용량 데이터를 더 빠른 속도로 내려 받을 수 있기 때문이다. IPTV∙유튜브(Youtube) 등 콘텐츠 공급원이 다양해지고 사용자가 고를 수 있는 단말기 종류 역시 PC∙TV∙스마트폰 등으로 확장되며 압축된 데이터가 구현해내는 콘텐츠를 소비하는 일도 예전보다 훨씬 간편해졌다. 이런 추세는 (제품) 생산자도 웃게 한다. 좀 더 크고 화질 좋은 TV, 작아도 실감 나는 영상을 재생하는 모바일 기기 등 디코딩 기기 수요 증가와 직결되기 때문이다. 그야말로 ‘누이 좋고 매부 좋은’ 변화다.

1000년 된 프랑스 삼베 태피스트리서 ‘혁신 제품 이면의 기술’ 만든 이들의 노고 떠올리다

AI의 무한한 가능성을 다시 한 번 확인하고 나오는 길, 문득 프랑스 여행 당시 인상적으로 접했던 문화유산의 광경이 떠올랐다. 파리에서 약 260㎞ 떨어진, 영국을 마주하고 있는 소도시 베이유에 보관 중인 일명 ‘베이유 태피스트리[2]’가 그것. 폭 50㎝, 길이는 70m가 넘는 삼베 천에 완성된 이 장식품엔 1066년 노르망디를 정복한 윌리엄 왕과 영국 웨섹스 해롤드 경 간 벌어진 헤이스팅스 전투 전후 얘기가 정교하게 수놓아져 있다.

프랑스 노르망디 베이유박물관에 전시 중인 베이유 태피스트리 전경(왼쪽 사진)과 일부 발췌본▲프랑스 노르망디 베이유박물관에 전시 중인 베이유 태피스트리 전경(왼쪽 사진)과 일부 발췌본

1000년 이상의 세월을 거치면서도 손상되지 않은 채 남아 오늘날 베이유박물관 벽면을 따라 길게 전시된 이 문화유산은 누구에게나 뭐라 설명할 수 없는 감동을 안긴다. 만약 이 작품이 물감와 붓을 써 완성된 거라면 감동은 덜했을지도 모른다. 장대한 역사를 고스란히 재현하기 위해 바늘을 움직여 글자 모양을 만들고 색실로 광활한 공간을 채워갔을 아낙들의 손길이 모인 덕에, 여느 그림과는 차원이 다른 감동을 자아내는 것 아닐까?

이날 마주한 삼성전자 DMC연구소 AI 개발진에게선 인터뷰 내내 ‘글로벌 톱 기업에서 차세대 기술의 첨단을 달리는 주역’으로서의 자부심과 자신감이 느껴졌다. “비록 현재는 가능성 검증 단계지만 하나같이 ‘실제 상품 탑재’를 전제로 진행해온 연구인 만큼 적절한 시점에 상용화되는 덴 전혀 문제가 없다”는 게 이들의 입장. 길게는 2010년부터 시작돼온 이 기술들이 향후 어떻게 실제 제품에 녹여질지 절로 기대가 됐다.

갤럭시 S8 사용자 중 상당수는 빅스비 같은 혁신적 기능에 매료된다. 하지만 그런 매력의 이면에 작용한 손길까지 의식하는 이는 많지 않다. 하지만 아무리 사소해 보이는 기능이라도 그 뒤엔 무수한 이의 노력이 깃들어있다. 크고 작은 서비스와 소프트웨어로 채워진 최첨단 스마트폰도 예외는 아닐 것이다. 전자제품을 더 ‘스마트하게’ 바꿀 AI 개발에 여념이 없는 이들과 만나고 돌아오는 길, 문득 그런 생각이 들었다.


[1] Internet Protocol Television. 초고속 인터넷망을 이용해 제공되는 양방향 텔레비전 서비스
[2] tapestry. 각종 색실로 그림을 짜 넣은 직물. 벽걸이나 가리개 따위로 흔히 쓰인다

삼성전자 뉴스룸의 직접 제작한 기사와 이미지는 누구나 자유롭게 사용하실 수 있습니다.
그러나 삼성전자 뉴스룸이 제공받은 일부 기사와 이미지는 사용에 제한이 있습니다.
<삼성전자 뉴스룸 콘텐츠 이용에 대한 안내 바로가기>

TOP