[전문가 칼럼] 기업 데이터, ‘체지방 다이어트’가 필요해
문송천 카이스트 경영학과 교수
TV 다큐멘터리에서 아프리카 초원을 누비는 수컷 사자에 매혹된 적이 있다. 사람으로 치면 20대 초반쯤 됐을 그 사자의 균형 잡힌 몸은 절로 탄성을 자아내게 했다. 동물원에서 보던, 나이가 들 대로 든 사자의 몸과는 차원이 달랐다. 인간의 경우 ‘군살 없이 탄탄한 신체’의 극치는 마라톤 선수에게서 찾아볼 수 있다. 마라톤 선수의 체지방율은 대개 15% 선을 유지한다. 반면, 비만인 사람의 체지방율은 30%까지 치솟기도 한다.
‘꿈의 수치’ 15%를 사수하라
우연의 일치일까. 체지방율과 데이터 중복률은 이상하리만치 그 의미가 유사하다. 흔히 ‘데이터 비만도’라고도 불리는 데이터 중복률 계산법은 매우 간단하다. 어떤 데이터 속성(attribute)이 몇 군데 등장하는지 따지면 된다. ‘데이터 중복률 15%’는 데이터 설계를 가장 완벽하게 해냈을 때 얻을 수 있는 최적의 수치다.
15%가 ‘최선’인 이유는 데이터 테이블 설계 기술의 한계에서 찾을 수 있다. 데이터 모델링의 세계에서 최하 수준의 설계 산출물은 ‘1차 정규형’, 최고 수준의 설계 산출물은 ‘3차 정규형’이다. 전자의 데이터 중복률은 상당히 높아져 30% 선에 이른다. 사람으로 따지면 확실한 비만이다. 반면, 후자로 갈수록 해당 수치는 점차 낮아져 ‘마라톤 선수에 버금가는’ 15%에 가까워진다.
그렇다면 오늘날 기업이 보유하고 있는 데이터베이스 내 평균 데이터 중복률은 얼마나 될까? 놀랍게도 60% 이상이다. 40년 넘게 국내외 기업의 각종 대규모 데이터베이스를 현장에서 관찰하며 발굴해낸 ‘실질 수치’가 그렇다. 이런 얘길 들려주면 상대방은 대부분 “설마 그 정도겠어?”라며 반신반의한다. 하지만 데이터 모델을 설계해주는 소프트웨어 도구, 이를테면 ER윈(ER-Win)을 직접 한 번 돌려보면 누구라도 ‘데이터 중복률 60% 전후’ 수치 앞에 맞닥뜨리게 된다. 이 결과를 접한 이들의 반응은 크게 두 부류로 나뉜다. 놀람(“아니, 엉터리로 들어간 데이터가 이렇게 많았단 말이야?”)이 하나, 책망과 탄식(“해답을 빨리 내려고 일부 중복이 허용되는 줄은 알았지만 중복률이 이렇게나 높았다니!”)이 다른 하나다.
기업 데이터, 열 중 여섯은 ‘중복’
데이터 중복률이 60%란 말은 곧 ‘상당수 기업이 1차 정규형에도 훨씬 못 미치는 데이터 테이블 설계 산출물을 활용하고 있다’는 의미로 해석된다. 어째서 이런 현상이 빚어지게 됐을까? 첫 번째 원인은 난해한 정규형 이론에서 찾아야 한다. 60% 전후의 데이터 중복률을 야기시킨 데이터 테이블 설계자는 1차 정규형의 진정한 의미를 제대로 알지 못하는 사람이다.
이 대목에서 함께 풀어볼 문제가 하나 있다. “특정 데이터 테이블의 기본 키(primary key, 데이터 테이블 내 특정 열을 1차적으로 식별할 수 있는 키 필드) 속성이 다른 데이터 테이블에서 키가 아닌 속성(non-key attribute)으로 등장할 수 있을까?” 이 질문에 “그럴 수 있다”고 대답하는 사람은 1차 정규형의 의미조차 제대로 모르는 사람이다. 그리고 대다수 기업의 데이터 모델 설계 담당자가 이 질문을 받고 “그럴 수 있다”며 고개를 끄덕이는 게 딱하지만 엄연한 우리네 현실이다.
정규형 이론에 따르면 한 (데이터) 테이블의 기본기 속성을 다른 (데이터) 테이블에서 키가 아닌 속성으로 등장시키는 건 데이터에 관한 기초 상식조차 갖추지 못한 이들이 임의로 저지르는 ‘종신형급 실수’다. ‘큰 방죽도 개미구멍으로 무너진다’는 옛말은 데이터 설계에서도 유효하다. 이런 무지, 혹은 몰이해의 소치가 기업의 데이터 비만도를 60% 이상까지 끌어올린 주범이다.
이상화 선수에게서 배우는 ‘균형미’
문제의 심각성은 데이터 ‘비만도’에서 끝나지 않는다. 과다한 데이터 중복률은 최악의 경우, 데이터 설계의 균형을 송두리째 깨뜨려버린다. ‘데이터와 인체의 공통점’은 여기서도 고스란히 적용된다. 예를 들어 척추 고통의 경우, 직접 겪어보지 않은 사람은 헤아리기 어렵다. 좌우 균형 붕괴나 나쁜 자세 등 원인은 여럿이지만 일단 고통을 느끼기 시작하면 회복에까지 걸리는 시간은 한이 없다. 이상 증세를 치료하고 고통에서 벗어나려면 장거리 마라톤을 완주하듯 오랜 시간 인고의 과정을 겪어야 한다.
지난해 소치 동계올림픽 스피드 스케이팅 여자 500m 종목에서 금메달을 거머쥔 이상화 선수의 신체는 여러모로 놀랍다. 특히 허벅지 특정 지점에서 출발해 발 끝까지, 거기서 다시 양쪽 손 끝까지 이어지는 균형미는 대단하다. 기업 데이터베이스를 구성하는 ‘데이터 균형미’도 인체 균형미와 다르지 않다. 스포츠 경기든 데이터 검색이든 좌우 균형이 잘 갖춰져 있으면 최고 속도는 어렵잖게 발휘된다.
데이터 검색 시 최고 속도를 구현하려면 데이터 구성 시에도 균형미를 고려해야 한다. 어떤 데이터가 기준점이 되든 해당 데이터에서 좌우 종착점까지 가는 길이의 깊이가 같다면 ‘균형이 잘 잡혔다’고 평가할 만하다. 그래야 어느 방향으로 오가든 ‘최단 이동 시간’을 기록할 수 있다. 균형 잡힌 데이터 설계는 응답 시간 단축에도 기여한다. 반면, 균형미가 파괴된 데이터 설계에서 응답 도출 시간은 그야말로 ‘엿장수 마음대로’다.
군살 ‘제로’ 성공, 다음 수순은?
마라톤 선수는 최단 기록을 달성하기 위해 자기 몸의 군살을 최소화한다. ‘군살 제로(0)’는 데이터 구성에서도 더없이 중요한 원칙으로 작용한다. 데이터 역시 군살, 다시 말해 쓸데없는 중복이 완전히 제거돼야 좌우 균형미를 갖출 수 있다. 속도 역시 그 과정을 거쳐 개선된다. 군살이 사라졌다는 건 한마디로 질적 측면에서 잘 다듬어졌다는 뜻이다. 혹자는 궁금해 할 것이다. “군살을 빼고 난 후 수순은 어떻게 될까?” 다음번 칼럼에선 바로 이 주제를 다뤄볼까 한다.
※ 이 칼럼은 전문가 필진의 의견으로 삼성전자의 입장이나 전략을 담고 있지 않습니다.
필자의 또 다른 칼럼은 아래 링크에서 확인하실 수 있습니다.
☞[전문가 칼럼] ‘지도’조차 없이 헤매는 기업 정보시스템
☞[전문가 칼럼] 당신이 알고 있는 ‘빅데이터’는 틀렸다
☞[전문가 칼럼] 왜 우리나라엔 구글 같은 기업이 없을까?
☞[전문가 칼럼] 당신의 데이터 감각 지수는?
삼성전자 뉴스룸의 직접 제작한 기사와 이미지는 누구나 자유롭게 사용하실 수 있습니다.
그러나 삼성전자 뉴스룸이 제공받은 일부 기사와 이미지는 사용에 제한이 있습니다.
<삼성전자 뉴스룸 콘텐츠 이용에 대한 안내 바로가기>