[AI 전문가에게 듣는다] ③ 친구처럼 소통하는 AI 만드는 게 목표
AI(인공지능) 비서가 사람처럼 세상을 이해하고, 또 그런 AI 비서와 친구처럼 소통하는 것이 자연스러운 일이 될 수 있을까?
현재 우리의 생활을 편리하게 해주는 AI 기능들, 예를 들면 사진 속 음식 칼로리를 알려주거나 여행 중에 외국어를 번역해주거나, 또는 가구를 살 때 우리집에 맞는 사이즈인지 줄자 없이도 측정해주는 기능들은 스마트폰을 사용하는 많은 사람들의 생활 속에 이미 들어와 있다.
삼성전자 토론토 AI센터는 이런 기능을 넘어서 사용자와 같은 눈높이로 세상을 이해하고 친구처럼 소통할 수 있는 AI를 구현하기 위해 모든 역량을 모으고 있다. 저명한 컴퓨터 비전 전문가이자 토론토 대학교 컴퓨터 사이언스 학장을 역임한 토론토 AI센터의 스벤 디킨슨(Sven Dickinson) 센터장을 뉴스룸이 만나 토론토 AI센터의 연구 방향과 그가 생각하는 AI의 앞날에 대해 이야기를 나눴다.
말이 잘 통하는 AI를 위한 필수조건 – 말하고 듣고 보는 멀티모달 상호작용
토론토 센터에서는 AI를 활용해 이미지 속 사물의 종류나 상황, 위치 등을 인식하는 시각이해(Visual Understanding) 기술을 연구 중이다. 나아가 사용자의 음성뿐만 아니라 동작, 표정 등 다양한 정보를 종합해 사용자가 원하는 것을 기호에 맞게 제공하는 ‘멀티모달 상호작용(Multi-modal interactions)’ 기술도 개발하고 있다.
이 기술은 컴퓨터 비전(Computer Vision)[1]과 더불어 디킨슨 센터장이 밝힌 토론토 AI센터의 핵심 역량이다. 그는 “전자제품이 컴퓨터 비전을 통해 사람의 눈처럼 시각 정보를 얻을 수 있다고 가정할 때, 이 정보를 사용자 음성대화 정보와 융합한다면 음성 또는 시각 중 하나의 정보에만 의존한 것보다 훨씬 자연스러운 멀티모달 경험을 제공할 수 있다”고 소개했다.
멀티모달 상호작용이 가능해지면 사용자에겐 어떤 이점이 있을까? 디킨슨 센터장은 “어떤 제품을 구매했을 때 매뉴얼을 보며 버튼의 기능이나 순서를 외울 필요 없이 사용자가 원하는 걸 바로 기기에게 보여주고 말하기만 하면 된다”고 설명했다.
그는 또 “기기가 사용자를 이해하고, 사용자와 비슷한 눈높이로 세상을 파악할 수 있게 하려면 컴퓨터 비전과 멀티모달 명령어 간의 상호작용이 필수”라고 덧붙였다. 이 기술이 적용되면 사용자가 AI 비서에게 말하는 것뿐 아니라 AI 비서가 사용자가 세상을 보는 방식과 동일하게 세상을 이해하고 반응하는 일이 가능해진다는 것.
디킨슨 센터장은 “우리는 말하기, 읽기, 쓰기 등 다양한 의사소통 방법 중 어느 한 가지로만 소통할 때 불편함을 느낀다”며 “그래서 멀티모달 상호작용이 중요한 것”이라고 덧붙였다.
AI 연구자들의 꿈을 실현시킬 도구 – 삼성의 다양한 제품 포트폴리오
AI가 인간의 눈높이로 우리와 소통하기 위해 선행되어야 할 것은 바로 사용자 경험이다. 삼성전자는 올해 초 CES에서 ‘커넥티드 리빙(Connected living)’이라는 테마를 제시했다. 아울러 회사의 수많은 제품을 서로 연결하고 이들 기기의 지능을 발전 시켜 보다 한 단계 앞선 편리한 삶을 제공하겠다는 목표를 밝혔다. 디킨슨 센터장은 삼성전자의 다양한 제품 포트폴리오가 그가 꿈꾸는 AI 비전을 실현시킬 견고한 밑거름이 될 것이라 전망했다.
그는 “삼성전자는 가전제품, TV, 스마트폰 등을 통해 소비자에게 다양한 경험을 제공하고 있다. 이러한 다양한 제품과 서비스 소비자 사용 경험을 활용할 수 있다는 것은 삼성이 가진 강점이자 큰 기회”라고 말했다. 사용자들의 사용 경험에 비춰 각 기기와 어떻게 의사소통을 하는지, 기기 별로 어떤 특정한 기능을 수행하는지, 사용자의 습관과 선호도는 어떠한지 등을 파악하면 AI와 사용자 간의 의사소통 방식을 더욱 효과적으로 개선할 수 있다는 것.
디킨슨 센터장은 “컴퓨터 비전은 결국 이미지를 이해하는 데 그치는 게 아니라 세상을 이해하는 것”이라며 “진정한 AI는 인간의 행동을 모델링하고 이해할 수 있어야 한다”고 설명했다. 기기들이 인간과 똑같이 3차원 세계를 이해하고, 우리처럼 물체의 형태와 위치를 인지할 수 있다는 건 시각적 정보를 통해서 가능한 것인데, 단순히 보는 것 외에 ‘시각적인 맥락’을 공유하는 것이 ‘완성형’ AI 비서를 개발하는 데 있어 핵심이라는 것이다.
인간과 기기 간의 열린 상호작용으로 구현되는 완성형 AI
완성형 AI를 추구하는 삼성전자는 지능형 시각 이해 분야를 선도하기 위해 다양한 연구 역량을 키우는 데 집중하고 있다.
디킨슨 센터장은 “삼성전자는 시각정보를 습득하고 처리하는 방식에서 더 나아가 인간과 기기의 자연스러운 대화를 기반으로 한층 고도화된 서비스를 제공할 수 있는 기술 개발에 집중하고 있다”는 점을 강조하며 “이런 노력이 없다면 사용자들은 서비스에 쉽게 실망하고 결국 그 서비스를 이용하지 않게 될 것”이라고 덧붙였다.
그의 설명에 따르면 ‘개방성’과 ‘정보 공유’는 AI를 정교하게 만들기 위한 핵심 요소다. 예를 들어 AI가 과제 수행에 실패했을 때, AI 스스로가 사용자에게 ‘왜 그런 대응을 제시했는지’, ‘왜 제시하지 못했는지’에 대한 피드백을 줄 수 있어야 한다는 것이다. 이상적인 경우, AI 기기가 질문을 하거나 사용자에게 카메라를 조정해달라 하거나 다른 명령어 모드로 변경해달라는 등의 요청을 해서 적절한 후속 조치를 할 수 있다.
디킨슨 센터장은 “시스템도 사용자의 생각을 알아야 하고 사용자 역시 시스템의 사고 과정을 이해해야 한다”며 “개방성과 정보 공유가 인간과 기기 간 상호작용을 더욱 정교화하는 데 핵심”이라고 조언했다.
풍부한 AI 연구 자원이 토론토 센터의 강점
삼성전자는 AI 분야 역량 강화를 위해 미국, 영국, 캐나다, 러시아 등 과학기술이 밀집된 주요 지역에 삼성리서치 산하 AI센터 7개를 설립했다. 토론토는 머신러닝 연구의 근원지이자 전 세계 AI 연구의 허브 중 한 곳이다. 지리적으로도 컴퓨터 과학 분야와 연관된 다양한 학술 기관이 밀집해 있는 지역에 위치한다.
디킨슨 센터장은 “토론토에 AI센터가 있어 장점이 많다. 우리 센터는 컴퓨터과학 분야에서 명성이 높은 토론토 대학교 맞은 편에 위치하고 있어 과학계에서 활발히 활동하는 교수진과 좋은 네트워크를 형성하고 우수인재를 확보하기에 좋은 입지에 있다”라고 말했다.
전 세계 7곳에 포진한 삼성리서치 AI센터들은 각자의 핵심 영역을 필두로 센터간 협업도 진행하고 있다. AI 비전을 실현시킬 공동의 목표를 위해 시너지를 발휘하고 있는 것이다. 디킨슨 센터장은 “몬트리올, 케임브리지 AI센터 등과 긴밀하게 협업 중이며, 몇몇 연구 결과를 향후 삼성 제품과 서비스에 적용하는 것도 고려 중”이라고 말했다.
[1]카메라, 스캐너 등에 투입된 시각 정보에서 유용한 정보를 생성하는 기술로 사람의 눈과 같은 기능
삼성전자 뉴스룸의 직접 제작한 기사와 이미지는 누구나 자유롭게 사용하실 수 있습니다.
그러나 삼성전자 뉴스룸이 제공받은 일부 기사와 이미지는 사용에 제한이 있습니다.
<삼성전자 뉴스룸 콘텐츠 이용에 대한 안내 바로가기>