쓰이지 않던 ‘90% 정보’가 꿈틀댄다, 다크데이터

2018/10/24
공유 레이어 열기/닫기
주소가 복사되었습니다.

삼성전자 뉴스룸이 직접 제작한 기사와 사진은 누구나 자유롭게 사용하실 수 있습니다쓰이지 않던 ‘90% 정보’가 꿈틀댄다, 다크데이터

우주는 인류가 모르는 물질로 가득 차있다. 우주까지 갈 것도 없다. 지구상의 땅과 물, 대기는 물론이고 인체에도 인지되는 물질보다 그렇지 않은 물질이 훨씬 더 많다. 실제로 인간이 감각 기관을 통해 존재 여부를 판별할 수 있는 물질은 우주 구성 물질 전체의 5%도 채 안 된다. 그럼 나머지 95%는?

현재까지의 연구로 밝혀진 사실은 (95% 중) 25%가 암흑 물질(dark matter, 이하 ‘다크매터’)로, 70%가 암흑 에너지(dark energy, 이하 ‘다크에너지’)로 각각 채워졌단 것이다. ‘다크(dark)’란 수식어가 붙여진 건 물질도, 에너지도 빛을 내지 않아 존재 여부 확인이 어렵기 때문이다. 하지만 우주에서 일어나는 현상을 설명하려면 ‘눈에 안 보여도 뭔가 엄청난 양의 물질과 에너지가 있다’고 상정해야 한다.

우주

오늘날 선진국 과학자 그룹을 중심으로 다크매터의 정체와 작용 기제를 규명하려는 노력이 집중되고 있다. 분명한 건 다크매터가 우주 진화에 중요한 역할을 수행한단 사실이다. 한편에선 △우주는 점점 더 빠른 속도로 확대되고 있으며 △확대된 공간은 무수한 소(小)우주들로 채워지고 있는데 △암흑 물질은 이처럼 우주를 새롭게 탄생시키는 원료로 작용한다, 는 설명이 설득력을 얻고 있다. 과학자들은 “다크매터의 본질과 작용이 충분히 밝혀지면 현행 과학 기술 수준에서 이해되지 않는 문제가 상당 부분 해소될 것”이라고 입을 모은다. 기후 변화의 원인과 향후 진행 방향 등이 대표적 예다.

막연했던 쓸모, 점차 구체화되는 추세

ICT 키워드로  떠오르고 있는 다크데이터는

최근 정보통신기술(ICT) 담론 공간에선 다크매터와 유사한 느낌으로 관심을 모으는 화두가 있다. 암흑 정보, 곧 ‘다크데이터(dark data)’가 그것. 지난해 말 ICT 분야 전문 매체가 꼽은 올해 주요 ICT 키워드 목록에서도 다크데이터는 어렵잖게 확인된다.

미국 IT 전문 연구·자문 기업 가트너에 따르면 다크데이터는 ‘일상적 기업 활동에서 수집·처리·저장됐지만 사업 관계나 수익 창출에 유용하지 않은 정보로 판단돼 쓰이지 않은 정보 자산’을 뜻한다. 가트너는 “물리학에서 다크매터의 위상과 마찬가지로 다크데이터 역시 ‘기업 정보 자산’이란 우주에서 엄청나게 큰 부분을 차지한다”고 덧붙였다.

수많은 메일들

아닌 게 아니라 요즘처럼 정보 네트워킹이 활발한 세상에선 굳이 적극적으로 수집하지 않아도 데이터가 절로 쏟아져 들어오곤 한다. 회사 이메일 계정만 해도 그렇다. 협력사나 파트너 업체 관계자에게서 도착한 메일은 물론, 받는 이와 전혀 무관한데도 보내는 이의 홍보 목적에 따라 제공되는 정보가 하루에도 수십 건씩 넘쳐난다. 받는 이 입장에선 “당장 써먹지 못하지만 그냥 지워버리긴 아까워” 내버려두는 정보가 전부 다크데이터에 해당된다.

받는 이가 채 인지하지 못하는 동안 축적되는 데이터 양도 엄청나다. 2015년 IBM 추산에 따르면 센서 장치와 아날로그·디지털 변환기[1]를 통해 들어오는 데이터의 90% 이상은 전혀 쓰이지 않는다. 우주 물질 중 다크매터와 다크에너지가 차지하는 비중의 총합(95%)에 육박한다.

다크데이터가 실제 쓰임새와 무관하게 쌓이는 건 ‘나중에 쓸모가 생기지 않을까?’란, 막연한 기대 때문이다. 하지만 최근 이 같은 기대가 마냥 막연한 건 아니란 증거가 속속 등장하고 있다.

인지컴퓨팅 발달로 활용 가치 높아져

AI

다크데이터의 존재가 최근 ICT 분야에서 비중 있게 다뤄지는 배경엔 적어도 두 가지 요인이 작용한다. 첫째, 데이터 저장 장치의 발달로 웬만큼 많은 양의 데이터를 저장해도 큰 비용이 들지 않는다. 둘째, 데이터 분석 기법과 장치가 과거와는 비교할 수 없을 만큼 발달했다. 후자를 대표하는 기술이 ‘인지컴퓨팅(cognitive computing)’이다.

인간 뇌가 무수하게 뒤섞인 자극들 중 자신의 생존에 필요한 사항을 선택적으로 수용, 조합해 정보로 활용하듯 인지컴퓨팅에선 인공지능이 마치 인간 뇌처럼 ‘겉보기엔 산발적으로 흩어져 있어 별 상관 없어 보이는’ 데이터를 선택, 조합해 거기서 중요한 의미나 가치를 찾아낸다. 말하자면 인지컴퓨팅은 ‘인공지능이 궁극적으로 지향하는 단계’라고 할 수 있다.

인공지능 시스템 구조도(사진 왼쪽)와 인간 신경망. 전자는 칩셋 이, 후자는 뉴런 이 각각 단위를 이룬다

▲인공지능 시스템 구조도(사진 왼쪽)와 인간 신경망. 전자는 칩셋[2]이, 후자는 뉴런[3]이 각각 단위를 이룬다

인지컴퓨팅은 말 그대로 ‘사람이 사물을 인지하듯 데이터를 인지하는 컴퓨팅’을 일컫는다. 그런데 그 과정은 말처럼 간단하지 않다. 인간 뇌를 구성하는 신경세포는 1000억 개가 넘고 각 세포엔 ‘시냅스(synapse)’로 불리는 정보 수집·처리·저장 단위가 최소 100개, 최대 1000개까지 존재한다. 다시 말해 인간 뇌는 100조 개에서 1경 개에 이르는 정보 수집·처리·저장 장치를 보유하고 있으며 각 장치는 1초간 1억 개의 계산을 해낸다.

현재 나와있는 컴퓨터 기술로 이 정도 계산을 해내려면 150만 개 프로세서와 메인 고속 메모리 1.6페타바이트[4], 시간당 9.2메가와트 수준의 동력이 필요하다. 그뿐 아니다. 그 컴퓨터들을 전부 담을 수 있는 대형 빌딩도 한 채 있어야 한다. 반면, 인간 뇌는 동일한 동력을 2리터 남짓한 공간에 담고 있다. 구동에 필요한 에너지도 21와트 정도면 충분하다.

인간이 끊임없이 새로운 기술을 내놓는 건 활발한 두뇌 작용 덕분이다. 따라서 인간 뇌를 닮은 데이터 처리 기기가 필요하다면 가장 좋은 방법은 인간 뇌를 모방하는 것이다. 실제로 ‘뉴로모픽(neuromorphic, 신경 모양을 한)’ 컴퓨터 디자인은 인공지능 개발의 핵심 영역이다. 오늘날 나노 기술의 발달로 인간 뇌 신경세포와 닮은 칩셋을 제작하는 일이 상당 부분 가능해졌다. 2014년 현재 하나의 칩셋 안에 담을 수 있는 정보 저장·처리 단위는 2700만 개를 넘어섰다. 뉴로모픽 전문가들은 “2020년이면 정보 처리, 저장 능력에 관한 한 인간 두뇌와 맞먹는 수준의 인지 컴퓨터가 탄생할 것”으로 내다보고 있다.

면밀한 분석 가능 시 투자시장도 ‘출렁’

부가가치 창출로 이어지는 다크 데이터

“위대한 일은 충동으로 이뤄지지 않는다. 아주 작은 일들이 무수히, 그리고 세밀하게 연결돼 이뤄진다.” 빈센트 반 고흐[5]는 일찍이 말했다. 유홍준 전(前) 문화재청장은 “아는 만큼 보이고, 보이는 만큼 느낀다”고도 했다. 그의 말처럼 똑같은 불탑 하나를 보더라도 관련 지식이 전무한 사람과 그렇지 않은 사람의 눈에 비친 그건 전혀 다를 수밖에 없다. 두 사람이 불탑을 보고 느낀 소감을 남긴다고 해보자. 두 글의 수준과 차원 역시 천양지차일 것이다. 요컨대 때론 ‘남이 못 보는 걸 볼 줄 아는 능력’ 자체가 엄청난 부가가치 창출로 이어질 수 있다.

오늘날 공장은 앞다퉈 ‘스마트화(smart化)’되는 추세다. 소비자의 일거수일투족과 그들이 확보하는 정보 역시 온라인 공간을 부유하고 있다. 불과 얼마 전까지만 해도 이런 정보는 대부분 “표면적 기업 활동에 별 도움 되지 않는다”는 이유로 사장돼왔다. 하지만 아직 구조화되지 않은 이들 데이터가 실은 뜻밖의 보고(寶庫)일 수도 있다. 특히 앞서 살펴본 인지컴퓨팅 등의 기술이 좀 더 발전한다면 다크데이터가 창출해낼 가치는 무한대에 가깝다 해도 과언이 아니다.

비제시 아민(Bijesh Amin) 인더스밸리파트너스[6] 공동 창업자는 “다크데이터를 포함해 모든 데이터를 포착, 분석하는 기술이 발달하면 미래 투자 유형은 지금과 완전히 달라질 것”이라고 말한다<아래 도표 참조>. 그는 “모든 경제 활동이 점점 더 빨라지고 디지털화되는 현실에서 인터넷은 그 자체로도 가치 결정의 좋은 출발점이 될 수 있다”고 강조한다.

데이터 유형에 따른 투자 전망 분류

톰 코플린(Thomas Coughlin) 코플린어소시에이츠[7] 대표는 최근 미국 경제 주간지 포브스 기고에서 “미래를 내다보는 투자자라면 기술 발달의 흐름을 읽는 게 가장 중요하다”고 역설했다. 그는 “블록체인 기술만 해도 초기엔 가상화폐와 주로 연관됐지만 앞으론 제품 자동 검증, 혹은 회계 흔적 추적 수단으로 더 많이 활용될 것”이라며 “특정 기술의 경제적 가치를 판단할 때 종전 방식에만 의존하면 앞으론 불이익을 당할 게 명백하다”고 경고했다.

각종 로그, 비문자 정보도 활용 가치 충분

다크데이터

결국 핵심은 ‘어떻게 하면 다크데이터를 잘 활용할 수 있을까?’로 귀결된다. 사실 이 질문은 너무 새로워 아직은 관련 논의가 활발하게 이뤄지지 않고 있는 실정이다. 다만 지난해 오픈소스 소프트웨어 혁명에 관한 책을 펴내고[8] 신규 ICT 관련 글을 여럿 써온 전문 블로거 크리스토퍼 토지(Christopher Tozzi)의 몇몇 제언은 새겨 들을 만하다.

첫째, 네트워크 기계 데이터를 활용할 것. 서버나 방화벽, 네트워크 모니터링 도구 등 인터넷 환경을 구성하는 요소들은 네트워크 작용과 관련된 기계적 데이터를 다량 생성한다. 이런 정보를 모두 분석해두면 네트워크 안전성 제고에 활용할 수 있을 뿐 아니라 네트워크 활동 유형을 파악, 관련 인프라가 제대로 활용되지 않거나 과부하가 걸려 원활히 작동하지 않을 때 요긴하다.

둘째, 고객 지원 로그도 훌륭한 데이터가 될 수 있다. 대부분의 기업은 고객 지원 관련 기록을 보유하고 있다. 온라인 쇼핑몰을 예로 들면 특정 고객이 어떤 경로를 통해 어느 시간대에 웹사이트에 접속했는지, 어떤 카테고리에서 얼마나 머물렀는지 등의 정보는 사실상 거의 이용되지 않은 채 묻혀버린다. 만약 이런 데이터까지 구조화하는 도구가 개발된다면 맞춤형 제품 생산과 판매에 활용, 손실을 줄이고 수익률은 높일 수 있을 것이다.

셋째, 비(非)문자 데이터도 허투루 넘기면 곤란하다. 현행 데이터 분석 작업은 대부분 문자 데이터를 중심으로 이뤄진다. 하지만 비디오나 오디오, 기타 비문자 파일도 얼마든지 데이터 분석에 쓰일 수 있다. 연관된 메타 데이터를 분석하거나 음성을 문자로 변환하는 방식 등을 동원하면 된다. 아직은 비용 문제 등의 난관이 존재하지만 다크데이터 활용 기술이 계속 발전하면 이런 형태의 다크데이터도 얼마든지 잠재 가치를 갖는다.


[1] 마이크에서 잡힌 소리나 디지털 카메라에 들어온 빛 같은 아날로그 신호를 디지털 신호로 바꾸는 시스템. ‘ADC’나 ‘A/D’, ‘A-to-D’ 등으로 줄여 쓰기도 한다
[2] chipset. 컴퓨터 메인보드에 설치된 대규모 집적회로군의 총칭
[3] neuron. 신경계를 이루는 구조적·기능적 기본 단위
[4] peta byte(PB). 약 100만 GB의 정보량을 일컫는다
[5] Vincent van Gogh(1853~1890). 네덜란드 출신 프랑스 화가
[6] Indus Valley Partners. 미국 뉴욕에 본사를 둔 투자·경영 컨설팅 기업
[7] Coughlin Associates, Inc. 미국 데이터 스토리지 컨설팅 기업
[8] 원제 ‘For Fun and Profit: A History of the Free and Open Source Software Revolution’

삼성전자 뉴스룸의 직접 제작한 기사와 이미지는 누구나 자유롭게 사용하실 수 있습니다.
그러나 삼성전자 뉴스룸이 제공받은 일부 기사와 이미지는 사용에 제한이 있습니다.
<삼성전자 뉴스룸 콘텐츠 이용에 대한 안내 바로가기>

TOP