음성 인식 기술, ‘말귀 알아 듣기’ 이상으로 도약하려면

2017/10/19 by 김학용

세상을 잇(IT)는 이야기 음성 인식 기술, ‘말귀 알아 듣기’ 이상으로 도약하려면 하루가 다르게 급변하는 세상 지금 여기를 관동하는 최신 기술의 현주소가 궁금하신가요? IT 전문가 칼럼 세상을 잇는 이야기는 현대인애ㅣ 알아두면 좋을 첨단 테크놀로지 관련 상식을 전하고 거기서 얻을 수 있는 메시지를 다 함께 생각해보는 삼성전자 뉴스룸의 신규 기획 연재입니다.

올 초 미국 라스베이거스에서 열린 CES 2017 때와 마찬가지로 지난달 독일 베를린에서 막을 올린 IFA 2017에서도 음성 인식 기반 기기가 우후죽순으로 공개됐다. 삼성전자 등 일부 기업이 독자적 음성 인식 기술 채택 제품을 소개한 반면, 대다수 기업은 아마존·구글·마이크로소프트가 자체적으로 개발한 음성 인식 기술을 자사 제품에 다양한 형태로 응용했다. 자체 기술을 탑재했건 남의 기술을 활용했건 음성 인식 기반 제품이 홍수를 이루는 현실은 음성 인식 기술이 날로 중요해지고 있단 사실을 방증한다.

사람 목소리는 ‘인간 대 기기’ 소통 수단의 최전선

새롭게 출시되는 제품에서 음성 인식 기술이 주목 받는 현상은 ‘인터페이스 방식의 진화’란 측면에서 생각해볼 수 있다. 익히 알려진 것처럼 인간과 컴퓨터 간 인터페이스 방식은 컴퓨팅 기술이 개발된 이후 지속적으로 발전해왔다. 그 기반은 처음엔 ‘텍스트(text)’였다가 점차 ‘그래픽(graphic)’으로 진화했다. 그래픽 기반 인터페이스(Graphic User Interface, GUI)는 특정 애플리케이션(이하 ‘앱’) 아이콘을 마우스로 클릭하거나 손가락으로 터치하는 형태를 띠었다. 그리고 GUI 다음으로 등장한 게 음성 인식 기반 인터페이스(Voice User Interface, VUI)였다.

▲인간과 컴퓨터 간 인터페이스 방식은 시간 흐름에 따라 지속적으로 변화해왔다

종류는 다르지만 이 같은 인터페이스 기술엔 공통점이 있다. 하나같이 특정 수단(문자·아이콘·음성)을 활용, 인간이 하고자 하는 일을 컴퓨터에게 전달하는 방식이기 때문이다. DOS[1] 환경에선 실행하려는 앱에 해당하는 명령어(text)를, PC나 스마트폰에 사용되는 GUI 환경에선 역시 실행하려는 앱의 아이콘을 각각 정확하게 입력(클릭)하면 원하는 기능을 수행하게 할 수 있었다.

음성 인식 기반 기기는 주변에서 들리는 소리가 사람 말소리란 사실을 인식하는 한편, 인식한 음성을 명령어로 정확하게 변환시킬 수 있어야 한다. 인식된 명령어를 바탕으로 해당 기능이나 서비스를 연결시키는 작업도 수반될 필요가 있다

하지만 음성 인식은 몇 가지 부분에서 (특정 명령어나 아이콘이 특정 앱과 연결되던) 과거 인터페이스 방식들과 차이가 있다. 음성 인식 기반 기기에선 먼저 자연어 인식을 통해 사용자 명령을 이해할 수 있어야 한다. 다시 말해 주변에서 들리는 소리가 사람 말소리란 사실을 인식해야 하는 한편, 인식한 음성을 명령어로 정확하게 변환시킬 수 있어야 한다. 인식된 명령어를 바탕으로 해당 기능이나 서비스를 연결시키는 작업도 수반될 필요가 있다.

음성 인식의 여러 수단

지금까지의 음성 인식은 기능적 측면에 관심이 집중돼온 게 사실이다. 즉 시끄러운 환경에서, 이를테면 성능 좋은 스피커에서 음악이 흘러나오는 중에도 사람의 음성 명령을 정확히 인식하는 게 중요했다. 여기에 더해 ‘말소리에서 화자(話者)의 의도를 정확히 파악, 원하는 서비스와 연결해주는’ 기능을 개발하는 데 모든 노력이 기울여졌다. 음성 인식 기반 인터페이스는 텍스트를 입력하거나 아이콘을 클릭하는 것과 달리 다양한 방식으로 사용자의 명령이나 의도가 표현될 수 있기 때문이다.

AI로 연결되는 세상

반면, 음성 인식 기술의 활용과 관련해 그다지 고려되지 않고 있는 문제도 몇 가지 있다. 첫째, 음성 명령 내리는 이(화자)를 구분한 후 그에 맞게 기기 사용자 계정(user account)을 연결해주는 기능은 얼마나 개발됐을까? 둘째, 여러 장치에서 명령어를 중복해 인식하는 경우에 대한 해결책은 마련돼 있을까? 셋째, 하나의 기기에서 서로 다른 음성 인식 기술을 이용할 수 있도록 하는 문제에 대한 입장은 어떻게 정해야 할까? 넷째, 음성 인식 기술이 연구 초기 개발 범위를 넘어서지 못하고 있는 건 아닐까?

과제 하나_말하는 이 구분하고 복수 계정 지원해야

개인정보 보호

먼저 화자 구분과 복수 계정 지원 문제다. 최근 출시되는 스마트 기기는 특정인이 특정 기기를 독점해 사용하는 형태가 일반적이다. 즉 ‘개인화(化)된 장치’를 전제로 한다. 노트북이나 스마트폰이 그렇고, 스마트 밴드 같은 웨어러블 기기가 그렇다. 물론 타인(특히 가족이나 친구)의 사용 가능성을 완전히 배제하긴 어렵지만 그래 봐야 잠깐일 뿐이다.

대부분의 스마트 기기가 ‘개인화된 장치’인 데 반해 음성 인식 인터페이스가 탑재된 장치는 공용인 경우가 더 많다. 사용자는 여럿인데 연결된 계정은 하나이기 때문에 음성 인식 기반 서비스 제공자는 기기 사용자의 특성을 규정하는 데 어려움을 겪을 수밖에 없다

그에 반해 음성 인식 인터페이스가 탑재된 장치는 공용(共用)인 경우가 더 많다. 최근 본격적으로 보급되고 있는 음성 인식 기반 인공지능 스피커와 스마트 가전이 대표적이다. 이런 제품은 특정 사용자가 독점하기보다 해당 공간을 공유하는 다수(가족 등)가 함께 쓰는 걸 전제로 한다. 엄마는 날씨나 생활 정보를 묻고, 아빠는 피자나 치킨을 주문하며, 자녀는 동요나 동화를 듣는 식이다. 하지만 해당 장치에 연결된 계정은 대개 아빠나 엄마 중 한 명의 것이다. 하나의 계정으로 여럿이 이용하다 보니 음성 인식 기반 서비스 제공자는 기기 사용자의 특성을 규정하는 데 어려움을 겪을 수밖에 없다.

스마트홈을 이용중인 가족

이런 문제를 해결하려면 음성 인식 인터페이스가 화자의 목소리(聲聞)을 구분할 수 있어야 할 뿐 아니라 목소리에 해당하는 계정과 연결해줘야 한다. 목소리를 분간하려면 복수 계정 지원 기능 수반은 필수다. 또 개별 계정에 대해선 서로 다른 수준의 권한을 설정할 수 있어야 한다. 예를 들어 자녀에겐 온라인 결제 기능을 차단하고 학습·문화 관련 콘텐츠에 한해서만 결제할 수 있도록 권한을 차등화하는 등의 설정이 필요하다. 이는 ‘개인화된 서비스를 제공한다’는 측면에서 반드시 필요한 일이다.

과제 둘_지원 기기 여러 대여도 ‘중복 인식’ 않도록

거실에서 “최신곡을 틀어 달라”고 했는데 거실에 놓인 기기뿐 아니라 자녀 공부방에 설치된 기기까지 그 명령을 인식, 두 곳에서 노래가 재생된다면 어떨까? “세 시간 후 거실 등(燈) 꺼줘”란 명령이 두 개 장치에서 순차적으로 인식돼 여섯 시간 후에야 거실 등이 꺼진다면?

둘 이상의 장치에서 동일한 음성 명령을 중복 인식하는 경우도 짚어봐야 한다. 이 문제는 음성 인식 기능 지원 기기가 급증하며 단위 공간 내에서 사용자 음성 명령에 반응하는 장치가 늘어나는 데 기인한다. 이번에도 예를 들어보자. 거실에서 “최신곡을 틀어 달라”고 했는데 거실에 놓인 기기뿐 아니라 자녀 공부방에 설치된 기기까지 그 명령을 인식, 두 곳에서 노래가 재생된다면? “세 시간 후 거실 등(燈) 꺼줘”란 명령이 두 개 장치에서 순차적으로 인식돼 여섯 시간 후에야 거실 등이 꺼진다면?

▲아마존이 개발한 ESP 기술은 여러 기기에서 동일한 음성 명령이 확인됐을 때 사용자와 가장 가까이 있는 기기에서만 반응하도록 설계됐다<a href="#_ftn1" name="_ftnref1">[2]</a>

▲아마존이 개발한 ESP 기술은 여러 기기에서 동일한 음성 명령이 확인됐을 때 사용자와 가장 가까이 있는 기기에서만 반응하도록 설계됐다[2]

아직은 이런 문제가 심각하게 논의되고 있지 않지만 결제 수반 서비스와 연결, 이용된다면 자칫 심각한 문제로 부각될 수 있다. 실제로 음성 인식 기반 장치를 만드는 기업 중 이 문제에 적극적으로 대응하고 있는 곳은 아마존 정도가 전부다. 아마존은 일명 ‘ESP(Echo Spatial Perception)’ 기술을 탑재, 여러 기기에서 동일한 음성 명령이 확인됐을 때 이용자와 가장 가까운 곳에 있는 단말에서만 반응토록 하고 있다.

과제 셋_여러 기술 호환 적용 가능한지도 고려 필요

다음으로 한 공간에서 여러 종류의 음성 인식 기술을 사용할 때 발생하는 문제다. 대개 음성 인식 기술별로 제공될 수 있는 기능은 서로 다르다. 연동되는 제품이나 서비스가 달라지는 경우도 잦다. 이때 제공되는 기능이나 서비스가 많아질수록 어떤 음성 인식 기술이 어떤 기능이나 서비스를 제공하는지 헷갈릴 수 있다. 예를 들어 음성으로 TV를 켜려면 반드시 A라는 음성 인식 기술을 이용해야 한다고 가정하자. 이때 B나 C 음성 인식 기술을 이용하면 TV는 아무런 반응을 보이지 않는다.

. 한 공간에서 여러 음성 인식 기술을 사용할 때 발생하는 문제는 특정 음성 인식 장치에서 다른 음성 인식 기술을 선택적으로 이용하도록 하면 해결할 수 있다. 최근 아마존(알렉사)과 마이크로소프트(코타나)가 진행 중인 서비스 제휴 논의 역시 이런 맥락에서 이해할 수 있다

이런 문제는 특정 음성 인식 기술 탑재 장치에서 다른 음성 인식 기술을 선택적으로 이용하도록 하면 해결할 수 있다. 최근 아마존과 마이크로소프트가 알렉사[3]에서 코타나[4]를, 혹은 코타나에서 알렉사를 각각 호출하는 방안을 논의 중인데 이 같은 두 기업 간 전략적 제휴 역시 이런 상황을 인식한 결과다. 한 장치에서 여러 종류의 음성 인식 기술을 이용하게 하는 건 복수의 기동어(wakeup word)에 대해 반응하도록 하면 되므로 기술적으론 크게 어려운 문제가 아닐 수 있다. 하지만 경쟁자 시스템에 연결돼야 하고 사용자 데이터를 공유해야 하는 등 고려해야 할 문제가 적지 않다.

과제 넷_성능 ‘업그레이드’ 위한 서비스 생태계 구축

음성 AI 기기

마지막으로 고려해야 할 사항은 ‘단순 음성 인식에 그치지 않고 그 이상의 성능을 갖춘’ 인터페이스를 개발하는 일이다. 음성 인식 기능을 지원하는 제품은 대부분 음성 명령에 1차적 반응만 보인다. 레시피를 물어보면 레시피를 알려주고 에어컨을 켜거나 끄라고 하면 에어컨을 켜거나 끄는 식이다. 하지만 이런 기능은 음성 명령 기반 서비스를 기존 인터페이스 기술과 차별화시키지 못한다.

. 차세대 음성 인식 인터페이스라면 볶음밥 레시피를 물어봤을 때 단순 조리법 외에 명령 내린 시점의 냉장고 속 재료와 구매해야 할 재료까지 보여줘야 한다. 또 에어컨 작동 명령을 내렸다면 에어컨을 켜는 동시에 창문을 닫고 전열기구의 작동을 차단, 전력 효율을 높일 수 있어야 한다

음성 인식 기반 서비스 환경에서 서비스 제공자는 사용자의 이용 유형이나 문맥 등의 정보를 이용할 수 있으므로 사용자가 왜 그 명령을 내렸는지 이해하는 한편, 해당 명령과 관련된 기능이나 서비스도 함께 제공할 수 있어야 한다. 해산물 볶음밥 레시피를 물어봤을 때 단순히 조리법을 알려주는 데 그치지 않고 명령을 내린 시점의 냉장고에 보관된 재료와 구매해야 할 재료까지 보여줘야 한단 것이다. 한 걸음 더 나아가 부족한 재료를 그 자리에서 주문할 수까지 있으면 금상첨화다. 마찬가지로 에어컨 작동 관련 명령을 내렸다면 에어컨을 켜는 동시에 창문을 닫고 전열 기구의 작동을 차단, 전력 이용 효율을 높일 수 있어야 한다.

협업, 코워킹

물론 이런 기능이 음성 인식 제품 제조 기업만의 노력으로 구현되긴 어렵다. 냉장고 제조사는 내부 공간에 보관 중인 음식 재료 확인 기술을 개발해야 할 테고 대형 마트는 냉장고 사용자가 내린 주문을 실시간으로 받아 처리할 수 있어야 할 것이다. 주택 인테리어 역시 인공지능 지시에 따라 창문이나 커튼을 자동으로 여닫을 수 있도록 설계돼야 할 것이다. 요컨대 이 문제를 해결하려면 음성 인식 기반 서비스 생태계에 참여하는 기업의 전방위적 동참이 필수다. 자연히 시간도 많이 걸린다. 하지만 분명한 건 음성 인식 기반 서비스의 차원을 한 단계 높이는 데 필수적인 선결 조건이란 사실이다.

현실-가상 넘나드는 세상서 떠오르는 가치 고민하라

IT, 음성인식 세상

글 첫머리에도 밝혔듯 수많은 기업이 음성 인식 기반 경쟁 환경에서 낙오되지 않으려 필사적으로 노력하고 있다. 한쪽에선 보다 뛰어난 음성 인식 기술 개발에 열을 올리고 다른 쪽에선 범용으로 공개된 음성 인식 기술을 활용하되, 관련 기기 시장에서의 경쟁 우위를 유지하려 안간힘을 쓰고 있다. 하지만 현실세계와 가상세계가 연결되는 세상에서 새롭게 대두되는 가치 제공(혹은 경쟁) 방식을 진지하게 고민하지 않는다면 이런 노력은 무용지물이 되고 말 것이다. 따라서 앞으로의 고민과 노력은 ‘음성 인식 기술 자체’가 아니라 그 다음, 다시 말해 ‘음성 인식 기반 서비스 생태계’에 무게중심이 실려야 할 것이다.

※이 칼럼은 해당 필진의 개인적 소견이며 삼성전자의 입장이나 전략을 담고 있지 않습니다.

[1] Disk Operating System. 자기 디스크를 외부 기억 장치로 갖춘 컴퓨터 운영 체제
[2] Mark Bate, “Voice Enable All The Things With Alexa“(2017년 5월 14일)에서 발췌
[3] Alexa. 아마존이 2014년 공개한 음성인식 인공지능 비서 프로그램
[4] Cortana. 마이크로소프트가 개발한 지능형 개인 비서 소프트웨어