[전문가 칼럼] 당신의 데이터 감각 지수는?
문송천 카이스트 경영대학 교수
‘XX 여부’가 데이터일까? 정답부터 말하면 ‘아니다’. ‘결제 여부’나 ‘승인 여부’ 같은 것을 현업에서 많이 쓰는 데, 이것이 데이터가 아니라고 하면 의아할 독자가 많을 줄 안다. 관행이 무서운 것이다. 특히 학교나 교과서에서 원론적으로 배운 바가 전혀 없는 주제에 대해 현업의 선배로부터 잘못 전수받은 것들이 불러일으키는 부작용은 크다. “아니, 다들 그렇게 하는 데 뭐” 하는 식으로 아무렇지도 않다는 듯 머뭇거림 없이 저지르는 작은 잘못이 기업 정보시스템 전체를 시퍼렇게 멍들게 하고 있다는 사실을 알아야 한다. 작은 눈 입자가 눈덩이로 뭉쳐 쌓이기 시작하면 걷잡을 수 없이 큰 눈사람으로 변한다는 사실을 잊어서는 곤란하다.
데이터 중심적 사고방식의 중요성
우리가 일상생활에서 머릿속으로 생각하는 것들이 여과 과정을 거치지 않고 컴퓨터로 바로 들어갈 수는 없다. 컴퓨터에 들어갈 수 있는 것은 바로 데이터와 프로그램뿐이다. 이 둘 외에는 아무것도 없다는 사실을 알아야 한다. 그런데 중요한 것은 어떤 것이 과연 데이터와 프로그램의 후보가 될 자격이 있는지를 판단할 줄 알아야 한다. 이것을 모르고서는 데이터가 될 수 없는 부분이 엉뚱하게 데이터로 둔갑하는 일이 다반사로 벌어질 수 있다. 그러면 데이터의 품질은 하루아침에 바닥으로 떨어진다.
원론적으로 말하면 데이터가 될 자격이 없는 것들은 모두 다 프로그램 몫이 되는 것이다. 그러나 중요한 사실은 프로그램이 될 여지가 없는 것이 데이터로 남은 것이 아니라는 점이다. 다시 말하면 프로그램을 무게 중심에 놓고 판단하지 말고 데이터를 무게 중심에 놓으라는 뜻이다. 이게 ‘데이터 중심적 사고방식’이다. 다시 한 번 풀어서 말하면 우선 데이터가 될 자격이 있는지 세심히 판단해 보고 나서 데이터 후보이면 데이터로 취하되 데이터가 될 자격이 없는 것이면 망설이지 말고 과감히 프로그램 쪽으로 넘기라는 뜻이다.
데이터와 데이터 아닌 것
자, ‘승인 여부’를 예로 들어보자. ‘승인’이라는 행위가 존재할 때 행위의 결과(outcome)로 만들어 내는 데이터가 있다면 과연 어떤 것들이 있을까에 대해 한번 곰곰이 생각해 보자. ‘승인 일시’ 같은 것이 금방 생각날 것이다. 그렇다. 승인 일시는 분명히 승인이라는 행위의 결과인 것이 확실하다. 확실하다는 근거는 무엇일까? 승인 일시는 승인 행위가 종료된 후 비로소 창출될 수 있는 데이터이기 때문이다. 그런데 ‘승인 여부’를 만약 승인 행위의 결과 데이터로 잡는다면 그것은 큰 착오다. 이미 승인은 이루어졌고 따라서 승인됐느냐 안 됐느냐를 승인 행위 사후에 물어보는 것은 전혀 앞뒤가 맞지 않은 일이기 때문이다. 이 점에서 ‘승인 여부’는 승인 행위의 결과가 아닌 것이 확실하고 따라서 데이터가 될 자격이 하나도 없다는 점을 알아야 한다.
그럼 승인 여부 같은 것을 처리하려면 어디서 해야 할까. 다름 아닌 프로그램 몫이라는 뜻이다. 프로그램에서 ‘승인 일자’라는 데이터의 값을 조회해 일자가 명시돼 있으면 승인된 것으로 판단하고 일자가 빈칸으로 돼 있으면 승인되지 않은 것으로 판단하면 된다는 뜻이다. 프로그램이 돌아가려면 다소 얼마 간의 시간이 흐를 것 아니냐는 우려는 기우다. 컴퓨터의 성능이 1초에 10억 번 이상 계산하는 오늘날 프로그램으로 ‘if … then … else …’를 처리하는 일은 0.00001초도 안 걸리기 때문이다. 데이터베이스에 억지로 말도 안 되는 ‘승인 여부’라는 데이터를 잡아놓고 그걸 매번 액세스하는 데 걸리는 시간보다 수천 배 빠르게 프로그램이 돌아간다는 사실을 알아야 한다.
빅데이터 분석 전 기초가 중요
아무거나 데이터로 잡으면 그게 무슨 문제냐고 항변하는 이들은 주의 깊게 들어야 할 내용이 있다. 기업 정보시스템에서 응답 시간을 느리게 하는 주범이 바로 데이터 답지 않은 것들을 마구잡이로 데이터로 둔갑시키는 잘못된 관행이라는 사실을 알아야 한다.
기업 정보시스템에 ‘3초 룰’이라는 원칙이 있다. 기업 정보시스템에 어떤 질문을 넣었을 때 어느 경우라도 답이 3초 이내에 나와야 한다는 기본 철칙이다. 예외는 존재하지 않는다. 항상 3초 이내다. 그런데 기업 현장에서 3초는커녕 30초, 300초, 3000초를 초과하는 경우가 허다하다. 이러한 현상을 야기하는 주범 중의 주범이 바로 ‘XX 여부’를 비롯하여 ‘XX 유무’, ‘XX 구분’ 등 데이터로서 존재해서는 안 되는 것들이 마구잡이로 데이터베이스 곳곳에 산재해 있기 때문이다.
다시 한 번 강조하지만 인간의 개념적 생각이 그대로 데이터베이스의 데이터로 자리 잡게 했다가는 큰 낭패를 본다는 점을 잊어서는 안 된다. 여과의 과정, 즉 정제의 과정을 반드시 거쳐야 한다. 감별사의 손을 거쳐 정제 가능하게 해야 맞다. 그러나 유감스러운 사실은 이런 데이터 감별사가 기업마다 존재하여 데이터 파수꾼의 역할을 수행해야 되지만 그런 전문가는 하나도 없고, ‘데이터 사이언스’ 또는 ‘데이터 사이언티스트’로 불리며 너도나도 할 것 없이 소위 빅데이터 분석에만 혈안이 되어 있는 현실이다. 이러한 상황 속에 기업 정보화는 한마디로 사상누각이다. 기초도 없이 응용에만 잔뜩 신경을 쓰는 기이한 형국이다.
기초를 중시하자. 지금은 ‘정보화 시대’, ‘디지털 시대’라는 말로 컴맹의 위치를 벗어날 길이 잘 보이지 않는다. ‘지금은 데이터 시대’라고 불러야 맞는다고 생각한다. 그리고 나서 ‘나는 개념적 생각을 갖고 데이터베이스에 들어갈 데이터를 정제할 안목을 가진 사람인가?’라고 자문해 봐야 하는 시대다. 누구나 데이터 감별사가 되라는 이야기는 결코 아니다. 내가 데이터 시대를 살아가는 사람의 하나로서 데이터 센스를 제대로 지니고 있는 사람인가를 스스로 검증할 필요가 있다는 뜻이다. 인간의 오감에 더하여 여섯 번째 감각으로서 데이터 감각을 걸맞게 갖춘 이가 진정한 IT 시대를 살아가는 주인공 역할을 할 것이다.
※ 이 칼럼은 전문가 필진의 의견으로 삼성전자의 입장이나 전략을 담고 있지 않습니다.
필자의 또 다른 칼럼은 아래 링크에서 확인하실 수 있습니다.
☞[전문가 칼럼] ‘지도’조차 없이 헤매는 기업 정보시스템
☞[전문가 칼럼] 당신이 알고 있는 ‘빅데이터’는 틀렸다
☞[전문가 칼럼] 왜 우리나라엔 구글 같은 기업이 없을까?
삼성전자 뉴스룸의 직접 제작한 기사와 이미지는 누구나 자유롭게 사용하실 수 있습니다.
그러나 삼성전자 뉴스룸이 제공받은 일부 기사와 이미지는 사용에 제한이 있습니다.
<삼성전자 뉴스룸 콘텐츠 이용에 대한 안내 바로가기>