‘노는’ 분야서도 열일 하는 IT… 세상과의 연결, 좀 더 깊고 촘촘하게
인공지능이 쓴 시나리오, 그 수준은?
말이 되는 것 같기도, 아닌 것 같기도 한 대화가 이어진다. 하지만 화면 속 배우들의 연기는 진지하다. 토머스 미들디치와 험프리 커, 그리고 엘리자베스 그레이. 하나같이 영미권 영화계에서 ‘연기파’로 알려진 중견배우들이다.
위 대화는 지난해 런던 공상과학영화페스티벌(이하 ‘페스티벌’)에 출품된 9분짜리 단편영화 ‘선스프링(Sunspring)’<관련 링크는 여기 참조>의 한 장면을 글로 옮겨놓은 것이다. 작품 속 상황은 어느 것 하나 뚜렷하게 전개되지 않는다. 세 명의 등장인물은 처음부터 끝까지 당최 맥락을 알 수 없고 서로 연결되지도 않는 대화를 주고받는다.
영화적 완성도로 따지면 논의 대상조차 안 됐을 이 작품은, 그러나 개봉 당시 큰 주목을 받았다. “인공지능(AI)이 100% 대본을 쓴 작품”이란 사실이 알려졌기 때문이다. 실제로 영화가 모두 끝난 후 등장하는 영상에서 오스카 샤프 감독은 이렇게 말한다. “우린 궁금했습니다. ‘컴퓨터가 쓴 대본으로 영화제에서 상 받을 만한 영화를 제작하는 일이 가능할까?’”
페스티벌 출품 당시 선스프링은 단편 부문 최종 심사 대상 열 편에 포함됐다. 하지만 평가는 냉정했다. 영국 최고 권위 일간지 가디언의 후기는 단연 촌철살인(寸鐵殺人)이다. “로봇이 조만간 쳐들어올지 어떨진 모르겠다. 하지만 대본 작가들은 그 여부를 걱정하지 않아도 될 것 같다.”
“컴퓨터는 안다, 우리가 언제 울지”
2016년 3월 인공지능 알파고가 이세돌 9단과의 대국에서 완승하며 인공지능에 대한 사람들의 관심 수준은 이전보다 한 차원 더 높아졌다(관련 내용은 스페셜 리포트 2016년 3월 23일자 ‘인공지능의 미래가 두렵다는 당신에게’, 2017년 1월 18일자 ’음성인식 기술의 진화, 그 끝은 결국 인간’ 참조). “단순 계산 정도만 가능한 기계”로 생각돼온 컴퓨터가 ‘(인간의 전유물로 여겨졌던) 창의적 사고 기능’을 갖출 수도 있으리란 인식이 확산됐기 때문이다.
창의적 사고의 대표적 영역 중 하나가 바로 글쓰기다. 실제로 오늘날 ‘콘텐츠 플랫폼’으로서의 채널은 셀 수 없을 정도로 많다. 보다 참신하고 흥미로운 콘텐츠에 대한 소비자 요구 역시 그에 비례해 급증하는 추세다. 수익성 측면에서도 ‘스토리텔링(storytelling)형 글쓰기’의 중요성은 날로 커지고 있다.
인공지능의 ‘한 차원 높은’ 가능성이 확인되면서 엔터테인먼트 분야 종사자와 관련 개발자의 관심은 하나의 질문으로 집중된다. “인공지능에게 영화 대본이나 웹툰 스토리보드 같은 스토리텔링형 글쓰기를 주문할 수 있을까?” 선스프링은 이 질문의 대답을 구체적으로 보여준 첫 번째 작품이다. 그리고 그에 대한 세간의 평가는 앞서 살펴본 것처럼 대체로 부정적이다.
하지만 인간은 종(種)의 특성상 이만한 일로 쉬 포기하지 않는다. 실제로 엔터테인먼트와 IT를 접목시키려는 이들은 스토리텔링과 인공지능을 어떻게 연계할 수 있을지 끊임없이 모색해왔다. 지난달 초 글로벌 컨설팅 기업 맥킨지앤드컴퍼니가 발표한 보고서<관련 링크는 여기 참조> 역시 이 같은 모색의 결과 중 하나다. 사내 미디어∙엔터테인먼트 팀이 미국 매사추세츠공과대학(MIT) 인공지능 연구팀과 공동으로 펴낸 이 보고서엔 의미심장한 문장 하나가 눈에 띈다. “컴퓨터는 슬픈 얘기를 들었다 해서 울지 않는다. 하지만 우리가 어느 대목에서 울게 되리란 사실은 말해줄 수 있다.”[1]
비슷한 맥락에서 쓰인 보고서는 이 밖에도 많다. 대개는 이미 크게 성공한 영화나 TV 드라마, 애니메이션이나 (유튜브∙비메오 등에 올려진) 동영상 같은 걸 컴퓨터에 입력한 후 그에 대한 사람들의 반응을 알고리즘으로 만들어 구동시켜보는 방식이다. 이때 컴퓨터는 등장인물의 감정 변화를 유형(pattern)화해 보여주는 건 물론, 관객의 특성에 따라 특히 반응이 강하게 나타나는 부분 등도 일목요연하게 제시한다.
따지고 보면 그 결과는 대다수가 익히 알고 있는 것들이다. 가장 인기 있는 콘텐츠 유형은 일명 ‘신데렐라’ 얘기다. 외모와 인성을 겸비한 주인공이 여러 난관에 부딪치지만 이를 차례로 헤치고 누군가의 도움으로 행복하게 잘 산다, 는 줄거리다. 하지만 인공지능은 여기서 좀 더 나아가 상당히 구체적인 부분까지 적시(摘示)한다. 이를테면 주인공의 불행과 역경이 어느 지점에 배치돼야 관객의 시선을 가장 효과적으로 붙들어둘 수 있는지 따위를 분석하는 식이다. 등장 인물의 성별과 결혼 여부 설정법, 연령대별 관객 감정의 긴장과 이완 유형 배치 등에 관한 ‘힌트’도 얻을 수 있다.
인공지능이 자체적 대본 작성 능력을 갖추지 못했다 해서 ‘좋은 대본을 쓰는 데 전혀 쓸모 없는 기술’인 건 아니다. 관련 시도도 적잖이 이뤄지고 있다. 2016년 9월 개봉된 공상과학 영화 ‘모건(Morgan)’의 트레일러 영상은 인공지능이 이미 개봉된 유사 장르 영화를 여러 편 검토, 제안한 대로 제작돼 호평 받기도 했다.
자막∙싱크 작업은 이미 인공지능의 몫
당연한 얘기지만 엔터테인먼트 분야에서 인공지능의 쓰임새는 단순히 ‘스토리 제작’에 머무르지 않는다. 인공지능(과 관련 인프라)의 사회적 파급력이 점차 커지며 해당 기술을 미디어∙엔터테인먼트 산업과 접목시키려는 시도는 걷잡을 수 없이 확산되고 있다. 학계 중심의 기술적 탐사는 30년도 더 전부터 이뤄졌지만 최근 이삼 년 새 그 불길은 실제 산업계로 번져가는 형국이다.
예를 들어 오늘날 인터넷 동영상 자막 서비스는 거의 인공지능의 몫이다. 온라인 콘텐츠 번역 부문 역시 인공지능이 전담하다시피 한다. 삼성S나 구글 번역기 등 관련 기술이 속속 개발되며 영어는 물론, 웬만한 외국어 문장의 내용을 대략적으로 파악하는 일은 갈수록 수월해지고 있다. 물론 자막도, 번역도 아직 완벽한 수준은 아니다. 하지만 없는 것보단 훨씬 낫고 그 품질 역시 빠른 속도로 향상되는 중이다. 지금 속도대로라면 김연아 경기를 감탄하며 전하는 해외 미디어, 혹은 케이팝(K-POP) 스타 공연에 열광하는 세계 각국 네티즌의 반응도 머지않아 실시간 한국어 자막으로 정확하게 제공할 수 있을 것이다. 일부 마니아의 협동 수(手)작업이 아니라 첨단 인공지능 기술 활용으로!
동영상 제작에서 가장 까다로운 부분 중 하나가 ‘오디오-비디오 싱크[2]’ 작업이다. 한때 일일이 사람 손을 거쳐야 했던 이 작업 역시 인공지능에 의해 빠른 속도로 대치되고 있다. 무수한 데이터를 순식간에 분석, 필요한 부분을 포착해내는 인공지능의 능력은 종종 재밌는 결과물을 낳는다. 지난해 7월 미국 워싱턴대학 연구진은 동영상 한 편을 공개했다. 버락 오바마 전 미국 대통령의 연설로 구성된 8분짜리 영상이었다. 하지만 오바마 전 대통령이 실제로 이 연설을 한 적은 단 한 번도 없었다. 연구진은 연설 대본을 만든 후 인공지능 기술을 활용, 기존 오바마 연설과 인터뷰 클립에서 대본 속 표현을 토막토막 찾아낸 후 각각을 이어 붙여 영상을 완성했다. ‘오바마 합성하기(Synthesizing Obama)’란 제목이 붙은 이 영상은 인공지능이 콘텐츠 창작에 어떻게 기여할 수 있는지 보여주는 대표적 사례이기도 하다<관련 링크는 여기 참조>.
(출처 : Supasorn Suwajanakorn, Steven M. Seitz, Ira Kemelmacher-Shlizerman, University of Washington, SIGGRAPH 2017)
오디오-비디오 싱크 작업 못지않게 최근 온라인 문화권에서 그 활용도를 높여가며 고속 성장 중인 분야 중 하나가 ‘비디오 (심층) 분석’이다. 지난해 10월 25일자 스페셜 리포트(‘인식∙화질∙압축… 첨단 인공지능, 삼성전자 제품 탑재 준비 완료!’)에서도 소개한 적이 있는 이 기술은 삼성전자가 전 세계에서 가장 앞서가고 있는 분야이기도 하다. 비디오 분석에 쓰이는 음성(영상) 인식 기술은 콘텐츠 소비자와의 상호작용(interaction) 수준을 높여 소비자의 참여와 관심을 유도하는 데 널리 쓰이고 있다. 그뿐 아니다. 폭력물∙성인물 등 부적합한 동영상을 걸러내는 작업, 동영상 압축 시 화질 손상 부분을 포착하고 바로잡는 작업까지 더하면 시청각 매체 분야에서 인공지능 기술은 가히 초현실적 속도로 성장 중이다.
IT가 ‘진짜 여가 있는 삶’ 앞당긴다?!
여가(餘暇, leisure)는 ‘어떤 것에도 쫓기지 않고 느긋한 상태’를 일컫지만 요즘은 ‘몸도 마음도 바쁜 현대인이 업무 스트레스에서 벗어나 편안한 시간을 보내는 일’이란 뜻으로 자주 쓰인다. 실제로 오늘날 여가는 그 자체가 하나의 산업 아이템으로 안착, 영화∙TV∙공연∙전시∙게임∙스포츠 등 다양한 하위 분야를 탄생시켰다. 이에 따라 주말 거주용 주택이나 스포츠 경기장, SUV 차량 등 관련 상품 시장도 다양하게 발달해왔다.
여가 문화를 둘러싼 이 같은 흐름에서 IT 기술이 차지하는 비중은 단연 압도적이다. 비디오 게임은 그 자체가 IT 기술 산업의 결과물인 동시에 원동력이다. 컴퓨터 그래픽 역시 애니메이션을 비롯, 거의 모든 장르의 영화(영상) 제작 기술의 성격을 사실상 바꿔놓았다. 1950년대에 제작된 고전 영화 ‘벤허’의 전차 경기 장면을 오늘날 다시 구현한다면 어떨까? 아날로그 시대였다면 일일이 실제 세트를 만들고 엑스트라 연기자를 동원, 진짜 전차를 몰게 한 후 촬영해야 했을 것이다. 미국처럼 막강한 경제력을 갖춘 사회가 아니면 엄두조차 내기 힘든 도전이다. 하지만 이젠 다르다. 모든 작업이 컴퓨터 하나로 해결되기 때문이다.
21세기에 접어들며 사람들이 여가를 보내는 방식은 또 한 차례 변화하고 있다. 그리고 그 중심엔 어김없이 IT 기술이 자리 잡고 있다. 모든 게 인터넷으로 연결된 세상에선 굳이 스포츠 경기를 즐기려 경기장에 모여들 필요가 없다. 페스티벌을 감상하기 위해 복잡한 공연장을 찾아 부대낄 필요 역시 없다. 일찍이 로버트 앳킨슨 미국 정보기술혁신재단(Information Technology and Innovation Foundation, ITIF) 회장이 말했듯 “누구나 ‘네트워크화된 거실’에 앉아 자신이 원하는 현장과 얼마든지 상호작용할 수 있는” 세상이 됐기 때문이다.
IT 기술은 현대인의 여가 활용 방식뿐 아니라 그들이 누리는 콘텐츠 생산 요령이나 결과물의 품질도 놀라운 속도로 진전시키고 있다. 오늘날 새롭게 펼쳐지는 IT-엔터테인먼트 풍속도에서 인공지능 같은 IT 기술은 그야말로 ‘열일’ 중이다. 보다 깊게, 촘촘하게 인간을 세상과 연결시켜주고 있는 것이다. 휴가지나 공연장을 찾아 바삐 뛰어다니지 않아도 원하는 즐거움을 맘껏 누리는 삶, ‘진짜 여가’가 있는 삶은 어쩌면 인류 예측보다 훨씬 이르게 도래할지도 모른다.
[1] 원문 표현은 다음과 같다. “Computers don’t cry during sad stories, but they can tell when we will.”
[2] sync. 영단어 ‘syncronization(일치)’의 약어로 화면 파일과 음성 파일을 통합, 화면과 소리를 맞추는 작업을 일컫는다
삼성전자 뉴스룸의 직접 제작한 기사와 이미지는 누구나 자유롭게 사용하실 수 있습니다.
그러나 삼성전자 뉴스룸이 제공받은 일부 기사와 이미지는 사용에 제한이 있습니다.
<삼성전자 뉴스룸 콘텐츠 이용에 대한 안내 바로가기>