[전문가 칼럼] 데이터 중복의 ‘역습’에 대비하라

2015/04/14 by 문송천
공유 레이어 열기/닫기
주소가 복사되었습니다.

문송천 카이스트 경영학과 교수


 

5년 전 스페인을 여행하며 거리에 비만인 사람들이 적잖은 걸 보고 깜짝 놀란 기억이 있다. 장소가 스페인이 아니라 미국이었다면 그다지 놀라지 않았겠지만 불과 20년 전만 해도 스페인 사람들은 어디서나 날씬한 모습이었기 때문에 충격이 더욱 컸다. 미국은 20년 전이나 지금이나 비만이 심각한 사회 문제 중 하나다. 우리나라도 미국이나 스페인보다 사정이 낫긴 하지만 비만 문제가 조금씩 대두되기 시작했다.

 

중복 데이터 많아야 검색 속도 빨라진다?

xoqmfflt에 OBESITY(비만) 이라고써 있고 청진기가 태블릿을 진단합니다.

데이터도 신체와 마찬가지로 ‘비만’ 증세를 겪는다. 특히 기업 데이터 비만 문제는 신체적 비만 못지않게 심각한 문제를 야기할 수 있어 주의가 요구된다. 기업 데이터 비만이란 기업 데이터베이스 내 저장 데이터에 중복이 존재하는 현상을 일컫는다. 국내 기업을 기준으로 했을 때 평균 중복률은 65%, 그중 50% 이상이 ‘쓸데없는 중복’이다(나머지 15%가량의 중복은 현행 데이터베이스 기술이 지니는 불가피한 한계로 인한 중복이다). 전체 데이터베이스의 절반 이상이 ‘악성 중복’인 셈이니 보통 심각한 문제가 아니다.

국내 기업의 데이터 비만 문제가 이렇게 심각한 건 ‘중복에 대한 무조건적 맹신과 환상’ 때문이다. 흔히 ‘데이터를 중복시켜놓아야 관련 데이터를 보다 빨리 검색할 수 있다’고 여긴다. 부주의한 이들의 그릇된 통념이다. 그러다 보니 동일한 데이터, 예를 들면 ‘고객 성명’이 많게는 수백 군데에 나타나도록 허용된다. 만약 동일 데이터가 300개 지점에서 발견됐다면 그중 299개는 중복이란 얘기고, 이 경우 중복률(299/300*100)은 약 99.7%다.

데이터베이스 내에 ‘고객 성명’ 같은 속성급 데이터의 가짓수가 5000개 존재한다고 가정해보자. 5000개의 속성별 중복 빈도를 계산해 이들을 합산한 다음, 그 결과를 다시 속성 전체 수 5000으로 나누면 해당 데이터베이스의 전체 평균 데이터 중복률이 나온다. 이 수치가 바로 데이터 비만도다.

체중이 늘어나면 몸은 무거워지지만 순간적 폭발력은 증가한다. 데이터 세계에서도 마찬가지다. 데이터 중복을 일부 허용하면 일시적으로 검색 속도가 상당히 빨라진 것처럼 보인다. 실제로 기업 데이터베이스 내 데이터 중복률이 15% 이하를 유지한다면 전혀 문제 될 게 없다. 42.195㎞를 뛰어야 하는 마라토너도 체지방율이 15%는 된다는 점을 떠올려보면 이해가 빠를 것이다.

 

‘느린 속도’보다 무서운 건 ‘잘못된 결과’

표지판에 데이터 중복 마지노선 30 이라고 서 있습니다.

기업 데이터 중복률이 30% 이하로 유지될 땐 그런대로 적정 속도와 품질을 유지하며 제 몫을 해낼 수 있다. 하지만 30%를 훌쩍 넘겨 60% 이상까지 높아진다면 그 결과가 얼마나 끔찍할지 짐작조차 할 수 없다. 이때 30%는 데이터 테이블 구조가 (가장 저급한 수준인) ‘제1표준형’으로 설계됐을 때 허용되는 최대 중복률 수치다. 제1표준형은 데이터베이스 내 각각의 데이터 테이블이 갖춰야 할 최소한의 요건을 말한다. 따라서 만약 어떤 데이터 테이블이 제1표준형 기준에도 못 미칠 경우, 해당 데이터 테이블을 보유한 데이터베이스는 데이터베이스로서의 자격이 없다. ‘데이터 중복률 30%’를 마지노선이라고 부르는 건 바로 그 때문이다.

데이터 중복률이 30%를 넘어서면 정보 검색 시 두 가지 오류가 발생할 수 있다. 해답 도출에 너무 오랜 시간이 걸리는 경우가 하나, 시간은 얼마 안 걸리지만 틀린 답이 나오는 경우가 다른 하나다. 어느 기업의 차장 A씨가 승진, 부장이 됐다고 가정해보자. 만약 이 기업 정보 시스템의 데이터 중복률이 30% 이상이라면 “오전에 검색했더니 부장, 오후에 검색하면 과장, 이튿날 검색하면 대리”처럼 어처구니없는 결과가 나올 수도 있다. 그런 일이 어떻게 가능하냐고 반문할 사람도 있겠지만 실제 기업에선 이와 비슷한 사태가 종종 발생한다. 3초 이내에 답을 내놓긴 해야겠고, 그러다 보니 ‘정확하지 않은 값이라도 일단 출력하고 보자’는 관행이 이 같은 불상사를 초래하는 것이다. 데이터 중복이 불러일으키는 ‘무서운 역습’인 셈이다.

시계가 천천히 가는 모습입니다.

데이터 비만이 야기하는 폐단은 생각보다 심각하다. 우선 정확한 답이 나오기까지 시간이 너무 많이 걸린다. 미국 뱅크오브아메리카(BoA)가 규정하고 있는 ‘3초의 법칙’을 떠올려보면 재앙에 가까운 수준이다. ‘빠르지만 엉터리인’ 답을 내놓는 경우도 속도 실패 못지않게 참담하다. 그런데도 “그냥 있는 대로 쓰지”라고 체념한다면, 그리고 그렇게 결정하는 주체가 내로라하는 기업이라면 어떤 일이 벌어질까?

 

기업 데이터 ‘군살’ 제거, 3개월이면 충분

지난 20여 년간 기업 현장을 돌며 데이터베이스 현황을 관찰했다. 대부분의 국내 기업이 65% 이상의 데이터 비만도를 기록 중이란 사실만큼이나 놀랐던 건 언젠가부터 기업들이 ‘데이터 설계상의 하자에 따른 정보 처리 속도 저하’를 ‘하드웨어 성능 한계’로 둔갑시키는 지혜(?)를 발휘하고 있다는 사실이었다. IT를 잘 모르는 경영진은 IT 담당 부서의 엉터리 설명을 수용할 수밖에 없다.

더 심각한 문제는 IT 업무 담당 인력들조차 ‘데이터 설계’에 관해선 학교에서도, 직장에서도 제대로 배워본 적이 없다는 사실이다. ‘현장(기업) 중심’으로 돌아가지 않는 학교 커리큘럼이 낳은 비극이다. 실제로 전산학과는 데이터베이스 프로그래밍 교육에 집중할 뿐, 기업 데이터 설계에 관해선 거의 다루지 않는다. 경영학과 역시 데이터 설계를 남의 일로만 취급한다. 경영정보학과에서도 데이터 설계 대신 엉뚱하게 ERP(Enterprise Resource Planning, 전사적 자원 관리) 같은 설계 ‘도구’ 사용법 교육에만 열중한다.

학생들이 데이터 설계하는 모습입니다.

데이터 비만이 불러온 비극은 ‘최초 데이터 설계 오류’가 그 원인인 만큼 과감히 원점으로 돌아가 ‘이제부터라도 제대로 설계해보자’는 허심탄회한 자세로 대처하는 게 최선이다. 하지만 지레 실망할 필요는 없다. 수십 년간 축적돼온 데이터 비만 문제도 불과 수 개월이면 명쾌하게 풀 수 있는 기술적 해법이 반드시 존재하기 때문이다. 다만 궤변과 변명, 경영진을 향한 ‘거짓 설득’의 관행이 계속되는 기업은 외환 위기와 같은 부정적 외부 요인의 공격을 받는 순간, 오랜 세월 풍화된 고목마냥 단번에 쓰러져버릴 것이다.

조금이라도 앞을 내다볼 줄 아는 사람이라면 지금이라도 우리 기업의 데이터 비만도에 관심을 기울일 필요가 있다. 만약 측정 결과, 데이터 비만도가 30% 이상이라면 하루빨리 ‘군살’ 제거에 나서야 한다. 테이블 설계상 최상급인 동시에 가장 모범적인 수준으로 꼽히는 ‘제3표준형’이 허용하는 중복률은 15% 전후다. 어느 기업이든 이삼 개월이면 충분히 조직 데이터베이스의 데이터 비만도를 15% 선으로 낮출 수 있다. 그러니 ‘데이터 다이어트’에 관심 있는 기업이라면 두려워 말고 한 번쯤 용기 있게 도전해볼 일이다.

※ 이 칼럼은 전문가 필진의 의견으로 삼성전자의 입장이나 전략을 담고 있지 않습니다.

by 문송천

KAIST 경영학과 교수 (삼성전자 전문가 필진 2기)

기획·연재 > 오피니언

기획·연재 > 오피니언 > 외부 기고

삼성전자 뉴스룸의 직접 제작한 기사와 이미지는 누구나 자유롭게 사용하실 수 있습니다.
그러나 삼성전자 뉴스룸이 제공받은 일부 기사와 이미지는 사용에 제한이 있습니다.
<삼성전자 뉴스룸 콘텐츠 이용에 대한 안내 바로가기>

TOP