‘검색의 시대’ 지고 ‘추천의 시대’ 뜬다
불과 얼마 전, 이를테면 1990년대만 해도 사람들은 ‘검색의 시대’를 살았다. 누군가가 수(手)작업으로 완성해놓은 카테고리와 디렉토리를 훑어본 후 그 안에 들어가 정보를 찾는 데 익숙했다. 야후(Yahoo!)가 앞장섰던 디렉토리 서비스가 대표적 예다. 이런 유(類)의 서비스는 사람들이 실제로 관심 갖는 키워드를 중요하게 다룬단 점에서 미덕을 갖췄다. 편리하기도 했다. 하지만 인터넷이 성장하며 정보량이 폭발적으로 늘자, 금세 ‘규모(scale)’의 벽에 부딪쳤다.
‘내가 뭘 아는지’ 가늠 못하는 현대인, 갈수록 검색 어려워해
1990년대 말, 알타비스타(altavista)·라이코스(Lycos)·인포시크(Infoseek) 등 수많은 브랜드가 쏟아지며 인터넷 검색 엔진 시장은 백가쟁명(百家爭鳴)을 이뤘다. 급증하는 정보량을 고려할 때 이는 지극히 자연스러운 일이었다. 하지만 몇몇이 책상에 앉아 세상 사람 모두의 관심사를 디렉토리로 구분하거나, 엄청난 규모의 정보를 카테고리로 나누는 일은 이 즈음 이미 효용 면에서 수명을 다했다. 그런 의미에서 1997년 구글의 등장은 가히 혁신적이었다. 검색 속도와 정확성의 수준을 확연히 올려놓으며 검색 시장의 새 국면을 열었기 때문이다. 구글의 검색 결과는 사람이 분류한 디렉토리 안에 저장된 정보처럼 사용자가 찾는 키워드와 관련성이 높았다.
‘페이지랭크(Pagerank)’란 알고리즘으로 무장한 구글이 천하를 평정하자, 기존 디렉토리 서비스는 빠른 속도로 폐기됐다. 이후 검색의 시대가 본격적으로 시작됐다. ‘인터넷을 사용한다’는 말은 곧 ‘인터넷으로 검색한다’와 동의어였고, 그마저도 대부분은 구글 검색을 의미했다. 검색은 모든 곳에 존재했다. 한쪽에선 구글 검색으로 원하는 정보를 누가 빨리 찾는지 겨루는 대회가 열렸고 다른 쪽에선 검색엔진 최적화[1]나 애드센스[2], 애드워즈[3] 등 관련 사업과 생태계가 꽃피었다. 사람들은 하루에도 수십 번씩 검색을 수행하고 결과를 확인하며 지식을 확장해갔다(그건 지금도 별반 다르지 않다).
하지만 사람들이 미처 느끼지 못하는 새, 검색의 독주는 슬그머니 끝났다. 그 틈을 비집고 들어온 건 ‘추천’이었다. 디렉토리 서비스가 검색에 자리를 내어준 것처럼 몇 해 전부터 검색은 추천과의 공존을 서서히 꾀하고 있다. 이렇게 생각해보자. 당신이 뭔가를 검색하려 한다면 일단 검색 대상을 한두 개 단어로 표현해야 한다. 찾고 있는 게 구체적으로 뭔지 이미 알고 있어야 한단 뜻이다. 구글이 처음 등장한 1990년대 말이라면 충분히 가능한 설정이었다. 하지만 오늘날 인류에게 그건 상당히 어려운 얘기다. 인터넷 안에 짐작조차 어려울 만큼 많은 정보(데이터)와 서비스, 상품이 존재하기 때문이다. 이런 ‘정보의 바다’에서 사람들은 자신이 뭘 아는지(모르는지) 좀처럼 가늠하지 못한다.
추천시스템은 사용자를 행으로, 항목을 열로 하는 ‘희소 행렬’
추천시스템(Recommender systems)은 오래 전부터 수많은 웹사이트에서 활발하게 사용되고 있다. △아마존 전자상거래 서비스 △넷플릭스 영화 스트리밍 서비스 △구글 뉴스 서비스 △스포티파이(Spotify) 음악 스트리밍 서비스 등이 대표적. 적용 분야도 금융·보험·헬스케어·(온라인)광고 등에 한정됐던 초기와 달리 현대인의 일상 곳곳에 자연스레 스며들고 있다. 2000년대, 도처에 검색이 있었듯 2010년대엔 사방에 추천이 있다. 물론 차이는 존재한다. 검색은 텍스트 입력이 필요한 검색 창을 전제로 하므로 눈에 잘 보이지만 추천은 웬만해선 눈에 띄지 않는다.
검색은 사용자가 입력한 키워드를 기준으로 그것과 관련성 높은 문서를 찾아 사용자에게 보여주는 형태다. 반면, 추천은 사용자가 좋아할 거라고 예측되는 항목(item)을 컴퓨터가 알아서 예측한 후 제시되는 결과다. 추천시스템의 경우, 사용자가 키워드 따위를 직접 입력하지 않기 때문에 검색보다 훨씬 넓고 깊은 데이터 분석을 필요로 한다. 자연히 검색보다 인공지능에 좀 더 가깝다.
검색에서 핵심이 되는 데이터 모델은 입력된 키워드, 그리고 그에 상응하는 문서다. 인터넷에 존재하는 대다수 정보가 문서 단위로 조직되기 때문이다. 반면, 추천에서 중요한 데이터 모델은 사용자와 항목이다. 이때 사용자란 이름·성별·나이 등 단순 속성의 집합체가 아니다. 과거 어떤 제품을 선호하고 구매했는지, 무슨 링크를 클릭했는지 등 ‘행위’ 관련 정보를 모아놓은 형태다. 또 항목은 영화·음악·도서, 혹은 상품·서비스 등 컴퓨터가 사용자에게 권할 수 있는 전부를 아우르는 개념이다.
추천시스템 알고리즘은 크게 ‘협업 필터링(Collaborative filtering)’과 ‘콘텐츠 기반 필터링(Content based filtering)’으로 나뉘며, 앞서 언급한 대로 사용자와 항목 관련 정보를 기반으로 작동된다. 사용자를 행(row)에, 항목을 열(column)에 각각 놓은 행렬(matrix)을 떠올리면 쉽다. 각 칸은 특정 항목에 대한 사용자의 평점을 담고 있다. 일단 이 행렬은 거대하다. 아마존·구글·넷플릭스 등의 인터넷 서비스 가입(사용)자 수, 그리고 각각의 서비스가 판매하는 상품 종류를 생각하면 그 크기를 어느 정도 예측할 수 있다. 심지어 이 행렬에서 대부분의 칸은 아무런 값을 가지지 않는다. 한 명의 사용자가 구매(혹은 평가)하는 상품 수는 전체와 비교했을 때 극도로 제한돼 있기 때문이다. 따라서 추천시스템이 다루는 행렬은 대부분의 칸이 비어있는 ‘희소행렬(sparse matrix)’이다.
‘사이트 방문 없이도 작동하는’ 추천 알고리즘 활약 기대할 만
결국 추천시스템은 이처럼 비어있는 칸에 들어갈 값을 예측하는 엔지니어링이다. 다양한 행렬 계산과 통계학 방법을 동원, 발전을 거듭해온 추천시스템은 최근 신경망(neural network)과 딥러닝을 등에 업고 계산 측면에서 한층 정확해졌다. 속도도 눈에 띄게 향상됐다. 내가 애용하는 음악 서비스이기도 한 스포티파이 역시 딥러닝을 활용하기 시작하며 추천 음악에 대한 사용자(물론 나도 포함돼 있다) 반응이 전보다 좋아졌단 후문이다.
한 시대를 풍미했던 야후 디렉토리 서비스는 이미 오래전 구글 검색에 자리를 내줬다. 그리고 오늘날 검색은 추천과 공존한다. 시장에 안착한 기업 중 추천시스템을 적극적으로 활용하지 않는 곳은 찾아보기 힘들 정도다. 추천시스템의 질이 향상될수록 사람들은 점점 더 검색 기능을 사용하지 않게 될 것이다. 아닌 게 아니라 매번 적확한 키워드를 떠올려야 하는 검색은 추천에 비하면 꽤 귀찮다. 그런데 이 상황, 생각하기에 따라선 야후 디렉토리 서비스의 부활처럼 느껴진다. 커튼 뒤에서 작업하는 존재가 사람이 아니라 컴퓨터 알고리즘이란 사실, 전보다 훨씬 정교한데다 스케일 문제도 거의 없단 사실만 빼면 말이다.
추천은 아직 ‘웹사이트 방문’이란 사용자 행위를 필요로 한다. 하지만 앞으로의 추천 알고리즘은 채팅봇·메시지·SNS 등 다양한 인터페이스를 활용, 지금보다 훨씬 전방위적으로 확산될 것이다. 당장 떠오르는 모델만 해도 여럿이다. △목적과 예산에 맞춰 계획을 수립해주는 여행 플래너 △계절과 장소에 맞춰 입을 옷을 대신 선택해주는 의류 코디네이터 △취향과 다이어트 식단을 기반으로 매일 먹을 음식을 결정해주는 푸드 가이드 △무크(MOOC)[4] 등의 방식을 활용, 최적의 학습 계획을 세워주고 진행을 돕는 학습 에이전트… ‘추천의 시대’를 살아가는 당신 앞에 곧 펼쳐질 서비스의 면면이다.
※이 칼럼은 해당 필진의 개인적 소견이며 삼성전자의 입장이나 전략을 담고 있지 않습니다.
[1] Search Engine Optimization(SEO). 검색 엔진에 특정 글을 효과적으로 싣고 널리 알릴 수 있도록 웹페이지를 구성, 검색 결과 상위에 오르게 만드는 작업
[2] AdSense. 구글이 운영하는 광고 프로그램. 웹사이트(블로그) 소유자가 가입하면 구글이 해당 사이트 내용을 분석, 그에 걸맞은 광고를 올려주고 방문자가 해당 광고를 클릭하면 구글이 광고주에게서 돈을 받아 그 일부를 웹사이트(블로그) 소유자에게 나눠주는 방식으로 운영된다
[3] AdWords. 구글의 검색광고 네트워크 서비스. 검색광고를 신청하면 제휴 검색 엔진에도 광고가 동시에 게재되는 방식이다. 클릭당 광고비와 클릭율(CTR)을 동시에 적용, 입찰 경쟁 방식으로 제공된다
[4] ‘온라인 공개 수업(Massive Open Online Course)’의 약자
기획·연재 > 오피니언 > 세상을 잇(IT)는 이야기
기획·연재 > 오피니언
삼성전자 뉴스룸의 직접 제작한 기사와 이미지는 누구나 자유롭게 사용하실 수 있습니다.
그러나 삼성전자 뉴스룸이 제공받은 일부 기사와 이미지는 사용에 제한이 있습니다.
<삼성전자 뉴스룸 콘텐츠 이용에 대한 안내 바로가기>