‘내 말귀 알아듣는’ 기계 향한 꿈, 현실로 성큼!
커리어우먼 A씨. 봄철 원피스를 한 벌 구입하고 싶은데 예전처럼 친구들과 백화점을 돌아다니며 ‘아이쇼핑’ 할 여유조차 없다. 하는 수 없이 휴식 시간에 잠깐 짬을 내어 의자에 등을 기댄 채 스마트폰에 탑재된 쇼핑 애플리케이션 중 하나를 활성화시킨다. 그러자 젊은 남성 모습의 애니메이션 가상 인물이 나타나더니 말한다. “A님, 좋은 날씨입니다. 어떤 걸 도와드릴까요?” ‘안구 정화 비주얼’은 기본. 부드럽고 매력적인 음성도 일품이다.
A가 “봄 원피스”라고 말하자 남자는 되묻는다. “어떤 색상을 원하세요?” “어떤 색상이 좋겠느냐”고 반문하면 “올봄 유행 컬러는 밝은 겨자색과 울트라 바이올렛”이란 답변이 돌아온다. A가 “겨자색”이라고 말하자마자 A의 스마트폰 화면에 겨자색 원피스 신상(신제품) 사진이 쭉 뜬다. 미리 등록해둔 A의 체격 조건에 맞으면서 평소 구입하던 가격대까지 충족시키는 아이템들이다. 잠시 훑어보던 A의 눈에 애용 브랜드인 M사와 Z사 제품 중 하나씩이 들어온다. 일단 클릭으로 표시한 후 남자에게 다시 물어보는 A. “둘 중 어떤 게 좋을까?” 남자의 대답은 이번에도 시원시원하다. “지금껏 즐겨 입으시던 소재를 감안하면 두 번째 상품이 더 적합합니다.”
“그럼 그걸로 살게.” A의 대답이 떨어지기 무섭게 해당 원피스의 사진과 가격, 기타 사양만 보여주는 화면이 뜬다. 주문 내역을 다시 확인하는 남자. “Z 브랜드 겨자색 리오셀 소재 하이네크 슬림핏 원피스 가격 19만8000원입니다. 결제할까요?” “응” 안전결제 창으로 화면이 넘어가면서 주문이 완료된다. 배송 예정 시각은 내일 오후 두 시. A는 문득 기분이 좋아졌다. “봄옷 쇼핑, 간단한데?”
‘똑똑한 가상 비서’ 시장, 매년 40%씩 성장 중
위 가상 사례에서 A의 쇼핑을 ‘환상적으로’ 도와준 애니메이션 인물은 일명 ‘인텔리전트 버추얼 어시스턴트(Intelligent Virtual Assistant, IVA)’ 기술이 구현된 결과다. 최근 급부상 중인 ‘대화형 UI’ 기술 가운데 가장 인기 있는 과제이기도 하다. 실제로 온라인 시장조사 서비스 기업 리서치앤드마켓츠(Research and Markets)가 추산한 전 세계 IVA 시장 연평균 성장률 전망치는 38.8%에 이른다(2017년~2023년).
시중엔 이미 상당수의 IVA 소프트웨어가 나와있다. 하지만 그 수준이 위에서 든 사례만큼 일상화되려면 최소한 세 가지 중요한 기반 기술에서의 혁명이 선행돼야 한다. 첫째, 지능형 애플리케이션(이하 ‘앱’)이다. (지능형 앱에 관해선 지난 회차 스페셜 리포트에서 상세하게 다룬 적이 있다.) 지능형 앱은 오늘날 이미 상당한 수준에 올라있으며, 지금 이 시각에도 놀라운 속도로 개선 중이다. 핵심은 ‘신속하면서도 정확한 정보의 검색과 분석’. 머신러닝 기법을 활용해 온라인 공간에 떠도는, 거의 무제한에 가까운 정보 중 ‘A가 사고 싶어하고 살 수 있는’ 아이템을 골라내는 게 지능형 앱의 임무다.
둘째, 음성인식 기술이다. 단, 여기서의 음성인식은 ‘자연언어처리(Natural Language Processing, NLP)’로 불리는 소프트웨어를 기반으로 한다. 인공지능 기술의 한 분야인 NLP는 컴퓨터가 방대한 자연언어 데이터를 효과적으로 처리하도록 함으로써 (인간이 발화하는) 언어와 (그에 반응해 과제를 이행하는) 컴퓨터 간 상호작용이 원만하게 이뤄지도록 하는 과정을 일컫는다. 따라서 NLP가 원활하게 작동하려면 △인간 음성을 정확하게 포착하고 △포착된 음성을 자연언어로 이해하며 △그 결과를 역시 자연언어로 발화하는 등 총 세 단계의 작업이 필요하다[1].
셋째, 앞선 두 기술의 진행 결과를 시각적으로 구성해내는 GUI(Graphic User Interface)다. 특히 이때 약간의 애니메이션 요소가 가미될 수 있는데 이를 ‘모션그래픽디자인’ 기술이라고 부른다(모션그래픽디자인 기술에 관해선 다음 회차에서 좀 더 상세히 짚어볼 계획이다).
사용자 인터페이스(UI), 탑재 기기와 같이 큰다
대화형 UI와 대화형 플랫폼 둘 다 최근 IT 공간에서 부쩍 자주 등장하는 용어다. UI는 잘 알려진 것처럼 ‘사용자 인터페이스(User Interface)’의 준말. 즉 ‘IT 기기 사용자가 자신이 쓰는 기기와 상호작용(interaction)할 수 있도록 돕는 매개적 장치’를 통칭한다. 하드웨어 측면에선 모니터∙키보드∙마우스 등이, 소프트웨어 측면에선 커서 표시나 배너 등 사용자의 행동을 유도하는 장치 일체가 포함된다. 하지만 인터넷이 널리 보급된 후엔 ‘웹사이트와 사용자 간 상호작용 방식’을 가리키는 말로, 모바일 기기가 대중화되면서부턴 ‘모바일 기기를 사용할 때 진행 상의 변화를 일으킬 수 있는(event-driven) 요소’를 가리키는 말로 점차 그 의미가 확대돼왔다.
UI의 기술적‧디자인적 발달은 컴퓨터 보급과 밀접하게 관련돼있다. 불과 이삼십 년 전만 해도 컴퓨터를 이용하려면 검은 바탕에 복잡한 기호와 함께 깜박거리는 흰 글씨를 따라 키보드에 필요한 글자를 입력해 넣어야 했다. 이후 1980년대부터 10여 년간 GUI 기술이 폭발적으로 발달하면서 사용자는 아름다운 색상과 유려한 디자인, 직관적 버튼과 배너 등을 활용하며 컴퓨터와 자유자재로 상호작용할 수 있게 됐다. GUI 도입이 대중과 컴퓨터 간 거리를 좁혀 컴퓨터 보급률을 늘리는 데 크게 기여한 것이다.
이후 모바일 기기가 보급되며 컴퓨터는 사람 손 안으로 쏙 들어갈 만큼 소형화됐다. ‘더 손쉽고 재밌는 컴퓨터 작업’에 대한 수요 역시 그에 비례해 커졌다. 새롭게 개발된 UI 요소를 활용, 한층 편리하고 매력적인 사용자 경험(User eXperience, 이하 ‘UX’)을 제공하느냐의 여부가 기기 인기를 좌우하는 요인으로 자리 잡았다. 자연히 관련 기업들은 너도나도 UI 개선에 심혈을 기울이기 시작했다.
대화형 UI는 이 같은 모바일 기기 성능 개선 노력의 연장선상에 놓여있다. 그와 동시에 향후 엄청난 가능성을 잠재한 ‘퍼플오션[2]’이라고 볼 수 있다. 생각해보라, ‘터치’ ‘클릭’ 등 손으로 건드리는 동작 없이 원하는 걸 슬쩍 말하기만 해도 기기가 찰떡같이 알아듣고 딱 맞는 정보를 제공하는 기술을. 사용자 입장에선 당연히 매력적 구매 요소가, 생산자 입장에선 무슨 일이 있어도 개발해야 하는 과제가 될 테다.
‘뭐라고 말하든 금세 파악, 반응하는’ 소프트웨어
대화형 플랫폼은 쉽게 말해 ‘대화형 UI 개발을 손쉽게 해주는 프로그램’을 말한다. ‘플랫폼(platform)’은 ‘평평하다’란 뜻의 형용사(flat)와 ‘형태’를 뜻하는 명사(form)가 합쳐져 이뤄진 영단어로 알려졌다. 하지만 IT 분야에서의 플랫폼은 ‘다양한 기술이나 콘텐츠를 담을 수 있는 기술적 기반’으로 그 의미가 한층 확장됐다.
이렇게 볼 때 컴퓨팅과 관련된 맥락에서의 플랫폼은 특정 용도를 지닌 앱이나 프로그램이 아니라 ‘다양한 앱이나 프로그램을 담을 수 있는 기반 소프트웨어(와 콘텐츠)’를 의미한다[3]. 이 정의로 분류되는 대표적 사례가 유튜브나 핀터레스트 같은 것들이다. 두 서비스 모두 해당 업체가 제공하는 기본 틀을 활용, 무수한 사용자가 자신의 콘텐츠를 업로드할 수 있다. 이때 유튜브와 핀터레스트는 플랫폼이 된다.
대화형 플랫폼에선 사용자가 어떤 언어를 사용하든 머신러닝의 분석 능력이 재빨리 그 유형을 찾아내 어떤 언어인지 파악하고 해당 언어의 틀(frame)을 구축한다. 따라서 이런 기술이 요즘 각광 받는 현실은 거기에 담길 대화형 UI의 수요 역시 급증하고 있단 사실을 의미한다. 또한 기기 종류를 막론하고 정보 제공 서비스가 다양해지고 있으며, 그걸 이용하는 사용자 수 역시 놀라운 속도로 증가한단 사실을 보여준다.
기계와의 대화, “일상 속에서 놀이하듯 즐겁게”
(출처: 아티피셜 솔루션즈, 일부 발췌 후 재구성)
인간과 컴퓨터가 대화를 주고받는 모습은 일찍이 20세기 공상과학 영화에도 등장했다. 스탠리 큐브릭 감독의 대표작 ‘2001: 스페이스 오디세이’(1968)에선 음성 로봇 ‘HAL9000’이, 미국 NBC TV 공상과학드라마 시리즈 ‘스타트렉: 딥스페이스나인’(1996)에선 마일즈 오브라이언 상사가 각각 컴퓨터와 대화를 주고받으며 우주선을 운행한다. 두 작품 모두 대화형 UI 기술을 둘러싼 인간의 상상을 다루고 있다.
그러고 보면 대화형 UI는 수십 년 전 인간이 머릿속으로 그렸던 ‘상상 속’ 모습과 오늘날 주목 받는 ‘실제’ 모습 간 간격이 꽤 크다. 우선 해당 기술이 쓰이는 분위기부터 다르다. HAL9000은 “인류를 멸망시키겠다”는 흑심으로 가득했다. 자연히 극중 대화형 UI는 절체절명의 상황에서 발생한 위기를 극복하는 수단이었다. 하지만 오늘날 대화형 UI는 보다 편리하고 쾌적한 일상을 위해 ‘놀이하듯 즐겁게’ 사용된다. 용도 측면에서도 차이가 난다. 오브라이언 상사처럼 ‘원활한 우주 비행’이란 비현실적, 중앙집중적 목표에 활용되는 대신 일상에서의 다양한 과제를 처리하는 데 보다 최적화된 형태이기 때문이다. 예나 지금이나 기계음인 건 여전하지만 어조는 한결 매력적으로, 친절하게 바뀌고 있다. 이 모두가 ‘과학기술이 발달한 현대사회’의 긍정적 변화를 보여준다.
물론 아직 상상에 미치지 못하는 부분도 존재한다. 과거 영화 속 음성 로봇은 긴박한 상황에서 사람이 빠르게 던지는 질문에도 척척 대답한다. 그에 반해 스마트폰에 탑재된 음성 로봇은 사용자가 너무 빨리, 혹은 불분명한 어조로 말하면 여지 없이 이런 대답이 돌아온다. “다시 말씀해주십시오.” 많이 개선됐다곤 하지만 기계음 특유의 부자연스러움도 완전히 사라지지 않았다. 인간의 자연언어를 온전하고 정확하게 알아듣고 구현하기엔 아직 갈 길이 먼 것이다.
하지만 미지의 가능성을 극복하려는 인간의 노력은 이미 시작됐다. 당장 대화형 플랫폼을 활용한 앱이 쏟아져 나오고 있다. 용도도 점차 다양해지는 추세다. 일례로 자연언어 인터랙션 서비스 제품을 개발, 판매하는 스페인(바르셀로나) 기반 다국적 소프트웨어 기업 아티피셜 솔루션즈(Artificial Solutions)는 대화형 플랫폼을 활용한 자사 서비스를 △쇼핑 지원 IVA △온라인 웹사이트 대(對)고객 지원 △웨어러블 기기(사물인터넷) 내 자연언어 사용 인터페이스 △스마트홈 자동화 기기 등으로 정리해놓고 있다(관련 동영상을 보려면 여기를 클릭할 것).
“대화형 플랫폼에 우리 회사 미래 있다”는 MS
아티피셜 솔루션즈 사례만 해도 비교적 간단히 묶어 설명했기에 망정이지, 각각의 범주에 속하는 앱이 얼마나 다양해질 수 있는지 생각하면 대화형 UI의 용도는 사실상 무궁무진하다고 볼 수 있다. 이제껏 인간과 컴퓨터 사이를 매개해온 키보드나 마우스, 기타 이벤트 창출 장치 일체가 전부 ‘대화형’으로 대치될 수 있기 때문이다.
이렇게 볼 때 대화형 UI 시장 규모는 리서치앤드마켓츠나 트랙티카(Tractica) 같은 글로벌 시장조사 서비스 기업이 추산한 것보다 훨씬 더 커질 수 있다. 미국 정보기술 연구∙자문 기업 가트너(Gartner)가 올해 주목할 만한 10대 기술 중 하나로 대화형 플랫폼을 선정한 것, 2016년 ‘마이크로소프트(MS) 빌드 컨퍼런스’ 당시 새티야 나델라(Satya Nadella) MS CEO가 “우리 회사의 미래는 대화형 플랫폼에 있다”고 천명한 것 모두 현대인이 대화형 UI 기술에 주목하고 신경 써야 할 이유다.
[1] 기계의 음성인식 과제와 관련, 좀 더 상세한 설명이 알고 싶다면 2017년 1월 18일자 스페셜 리포트 “음성인식 기술의 진화, 그 끝은 결국 ‘인간’”을 참조할 것
[2] Purple Ocean. ‘기존 틀 안에서 새로운 기회 공간을 창출해내는 접근법’을 일컫는 말. 책 ‘억만장자 효과’(쌤앤파커스, 원제 ‘The Self-made Billionaire Effect’)에 처음 언급되며 알려졌다
[3] 물론 플랫폼이 하드웨어적 의미로 쓰일 때도 있다. 하지만 소프트웨어나 콘텐츠 차원에서 압도적으로 많이 사용되는 게 사실이다
삼성전자 뉴스룸의 직접 제작한 기사와 이미지는 누구나 자유롭게 사용하실 수 있습니다.
그러나 삼성전자 뉴스룸이 제공받은 일부 기사와 이미지는 사용에 제한이 있습니다.
<삼성전자 뉴스룸 콘텐츠 이용에 대한 안내 바로가기>