[전문가 칼럼] 당신이 알고 있는 ‘빅데이터’는 틀렸다

2014/10/31 by 문송천
공유 레이어 열기/닫기
주소가 복사되었습니다.

문송천 카이스트 경영대학 교수


 

최근 페이스북이 자사 서비스 가입자를 대상으로 감정 조작 실험을 감행한 사실이 알려져 화제다. ‘뉴스 피드(news feed)에 대한 긍·부정 반응을 임의로 조작했더니 사용자 대부분이 지대하게 영향을 받더라’는 게 주요 내용이다.

‘소셜네트워크서비스(SNS)가 여론 향방 결정에도 막대한 영향을 끼칠 수 있다’는 결론은 사뭇 충격적이었다. 실험에 참여한 이는 페이스북 사용자 70만 명. 엄밀히 말하면 빅데이터(big data)급엔 미치지 못하는 소규모 데이터 실험이었다. 페이스북 실험 논란은 향후 빅데이터를 앞세운 실험이 가져올 파장을 상징적으로 보여준 사건이었다.

빅 데이터를 표현한 이미지

빅데이터에 대한 일부 대중의 인식 속엔 수 년 전 유럽입자물리연구소에서 세기의 실험 끝에 발견된 힉스 입자가 자리 잡고 있다. 혹자는 빅데이터를 ‘SNS 이용자가 주고받는 교신량의 총합’으로 정의하기도 한다. 하지만 빅데이터의 원류를 찾으려면 약 20년 전으로 거슬러 올라가야 한다.

 

수요일 저녁, 기저귀와 맥주 매출의 상관 관계

1990년대 중반 한 대형 마트에서 있었던 일이다. 매주 수요일 저녁, 기저귀와 맥주 매출이 동반 상승하는 현상이 반복됐다. 이 같은 사실은 마트 판매관리부장이 어느 날 우연히 발견했다. 그는 기저귀와 맥주 간 기묘한 상관관계를 추적하기 위해 기저귀 진열대 위치를 일부러 맥주 진열대 가까운 곳으로 바꿨다. 그랬더니 놀랍게도 다음 달 기저귀와 맥주 모두 매출이 전달의 5배로 뛰었다.

맥주와 기저귀를 같이 사는 남자 쇼퍼들

일반적으로 유아를 키우는 가정은 주말에 1주일치 기저귀 한 팩을 구입한다. 하지만 종종 기저귀가 예상보다 빨리 소진되고, 그럴 때마다 (한 주의 절반가량이 지난) 수요일 오후 아내는 직장에 있는 남편에게 전화를 걸어 “기저귀 한 팩만 사 오라”고 부탁한다. 전화를 받은 남편은 오후 6시 퇴근 직후 차를 몰고 마트로 향한다. 기저귀를 사고 돌아 나오던 그는 생각한다. ‘기왕 힘들여 여기까지 왔는데 맥주나 한 팩 사 가지, 뭐!’

실제 월마트에서 있었던 이 사실이 세간에 알려지면서 대형 마트를 비롯한 유통업계를 중심으로 빅데이터에 대한 관심이 급격히 높아졌다. 수많은 품목 중 ‘매출 쌍끌이’ 역할을 해줄 기저귀와 맥주 같은 조합만 찾아낸다면 한 번쯤 시도해볼 만한 일이란 데 눈을 뜬 것이다.

 

페이스북이 자체 검색 엔진 개발에 나선 ‘진짜’ 이유

페이스북은 이름처럼 ‘얼굴책(facebook)’ 격인 졸업 앨범에서 출발한 기업이다. 천문학적 사용자 수를 보유하고도 이렇다 할 사업 모델이 없어 투자자들에게서 외면 당하던 페이스북은 얼마 전부터 부쩍 달라진 행보를 보이고 있다. 자체 인터넷 검색 엔진을 개발하고 모바일 광고 시장에 뛰어들어 구글과 전면전을 치르는 것 등이 대표적 변화다.

페이스북을 사용하는 모습

페이스북이 개발한 검색 엔진은 십수억 명의 회원이 쌓아 온 소셜 데이터를 기반으로 하기 때문에 빅데이터 시대에 특화됐다는 특징을 지닌다. 페이스북이 빅데이터에 관심을 갖는다는 사실은 달리 말해 페이스북이 자사 시장 매출에서 ‘기저귀와 맥주’ 역할을 해줄 데이터 쌍을 발굴해낼 자신이 있다는 뜻이다.

월마트와 페이스북 사례는 두 가지 교훈을 던진다.
첫째, 빅데이터에서 ‘빅(big)’이란 실로 천문학적 규모의 데이터를 의미한다.
둘째, 특정 데이터가 빅데이터의 일부로 인정 받으려면 최소한의 ‘자격’을 갖춰야 한다.

 

월마트와 페이스북 사례는 두 가지 교훈을 던진다. 첫째, 빅데이터에서 ‘빅(big)’이란 실로 천문학적 규모의 데이터를 의미한다. 월마트의 경우, 기저귀와 맥주 간 조합을 알아내기 위해 동원된 데이터 분량은 수집되는 모든 정보를 A4 복사용지에 빽빽하게 기입한 후 수직으로 쌓아 올렸다고 가정했을 때 에베레스트산 수십 개 높이에 해당한다.

둘째, 특정 데이터가 빅데이터의 일부로 인정 받으려면 최소한의 ‘자격’을 갖춰야 한다. 데이터가 아무리 많아도 그 중 상당수가 엉터리라면 진정한 빅데이터라고 하기 어렵다. 실제로 우리가 빅데이터로 지칭하는 데이터 뭉치 속엔 ‘가짜 데이터’가 꽤 많이 산재해 있다. 빅데이터 분석을 통해 유의미한 데이터 쌍을 찾아내려면 이 같은 쓰레기 데이터부터 찾아 분류해야 한다. 그래야 좀 더 빠른 속도로, 좀 더 질 높은 데이터를 추출해낼 수 있다.

 

뭐든 열심히 모으기만 하면 훌륭한 데이터가 된다?

데이터 지도를 그리는 모습

데이터 검색 과정에서 일정 수준 이상의 속도를 내려면 일종의 ‘내비게이터’가 필요하다. 이는 마치 자동차 운전자가 낯선 곳을 찾아가기 전 해당 지역 지도를 참조하는 것과 같은 논리다. 이 작업을 기업 정보 시스템으로 확장시키면 지역 지도는 ‘전사(회사 전체)데이터맵’에 해당한다. 개인과 조직 할 것 없이 지도나 내비게이터가 없으면 데이터를 대충 찾을 수밖에 없다. 전사데이터맵은 쉽게 말해 ‘기업 데이터 교통지도’다. 기업 정보를 찾을 때도 정확한 지도가 없다면 정답은 늦게 도출될 수밖에 없다. 오답이 나왔을 때 그 원인을 규명하는 일도 불가능해진다. 당연히 검색의 질과 속도는 현저히 떨어진다.

개인과 조직 할 것 없이 지도나 내비게이터가 없으면 데이터를 대충 찾을 수밖에 없다. 전사데이터맵은 쉽게 말해
‘기업 데이터 교통지도’다. 기업 정보를 찾을 때도 정확한 지도가 없다면 정답은 늦게 도출될 수밖에 없다.

 

이제껏 크고 작은 기업이 전사데이터맵 작성에 뛰어들었다. 대표적 사례가 전사적자원관리(ERP)와 데이터창고화(DWH) 같은 것들이다. 요즘도 꽤 여러 곳에서 두 방식이 통용되고 있긴 하지만 ERP의 경우 ‘진화정지설’이 회자되고 있으며 DWP 역시 무용(無用)론이 제기된 지 오래다.

흩날리는 정보들 속에서 한장의 꼭 필요한 정보를 잡고 있는 모습

ERP나 DWH의 결정적 패인은 내부에 꽉 들어찬 엉터리(쓰레기) 데이터다. 이들 개념이 데이터맵 개념조차 없던 시절 도입됐다는 사실을 감안하면 이런 결과가 빚어진 것도 무리는 아니다. 오늘날 두 이론에 전사데이터맵을 억지로 적용하려 해도 데이터 비만도가 너무 심각해 원하는 결과를 얻기 어렵다. ‘뭐든 열심히 모으기만 하면 훌륭한 데이터가 될 것’이란 안일한 생각이 빚은 참사다. 실제로 일부 기업의 ERP나 DWH는 축적된 데이터의 절반가량을 솎아내야 할 정도로 심각한 수준이다.

이런 데이터 찌꺼기(혹은 중복)를 속 시원히 제거하기 위해서라도 기업 정보를 한눈에 들여다볼 수 있는 데이터맵은
반드시 존재해야 한다. 데이터맵에 자신 있게 나타낼 수 없다면 데이터로서의 존재 가치는 없는 것과 마찬가지다.

 

이런 데이터 찌꺼기(혹은 중복)를 속 시원히 제거하기 위해서라도 기업 정보를 한눈에 들여다볼 수 있는 데이터맵은 반드시 존재해야 한다. 데이터맵에 자신 있게 나타낼 수 없다면 데이터로서의 존재 가치는 없는 것과 마찬가지다. 문제는 국내 기업 중 수준급 전사데이터맵을 갖춘 기업이 사실상 한 군데도 없다는 사실이다. 단언컨대 전사데이터맵 개념이 없거나 희박한 기업에 빅데이터란 한낱 신기루에 불과하다.

※ 이 칼럼은 전문가 필진의 의견으로 삼성전자의 입장이나 전략을 담고 있지 않습니다.

by 문송천

KAIST 경영학과 교수 (삼성전자 전문가 필진 1기)

기획·연재 > 오피니언

기획·연재 > 오피니언 > 외부 기고

삼성전자 뉴스룸의 직접 제작한 기사와 이미지는 누구나 자유롭게 사용하실 수 있습니다.
그러나 삼성전자 뉴스룸이 제공받은 일부 기사와 이미지는 사용에 제한이 있습니다.
<삼성전자 뉴스룸 콘텐츠 이용에 대한 안내 바로가기>

TOP