‘데이터 지능’ 갖춘 사람들은 이렇게 일한다

2017/12/28

데이터 지능 갖춘 사람들은 이렇게 일한다 / 세상을 잇(IT)는 이야기 "IT 산업의 현주소를 읽다" 급변하는 IT 분야에선 매일같이 새로운 아이디어와 기술이 각축을 벌이고 있습니다. IT 트렌드와 업계 흐름을 읽고 가치 있는 정보를 선별할 수 있는 시야가 필요한 이유죠. 각 분야 전문가들이 날카로운 통찰로 풀어낼 IT 산업의 현주소와 미래, 삼성전자 뉴스룸의 기획 연재 '세상을 잇(IT)는 이야기'를 통해 만나보세요

지난 글에선 인공지능 등 데이터 관련 기술이 세상을 급속하게 바꾸는 상황에서 ‘데이터 비(非)전문가’로 살아가는 방법을 다뤘다. 딥러닝(deep learning) 같은 신기술을 무작정 맹신하거나 추종하지 않고 자기 분야에서 전문성을 쌓으며 데이터 전문가와의 협업을 통해 가치를 창출하는 ‘도메인(domain) 전문가’ 모델을 제시한 셈이다. 그리고 이런 가치 창출의 전제조건으로 데이터의 본질과 데이터 기반 문제 해결 속성에 대한 최소한의 소양이라 할 수 있는 ‘데이터 지능’ 개념을 소개했다. 오늘은 (데이터 지능을 이미 갖춘) 도메인 전문가가 일하는 방법을 생각해보려 한다.

#1. 데이터, ‘문제 해결 도구’로 접근해라

언어 역시 현상의 불완전한 반영이긴 매한가지지만 인간은 언어를 통해 현상을 추상화시켜 이해할 수 있다. 또한 언어는 갖가지 사고와 추론, 타인과의 소통을 가능케 하는 도구이기도 하다. 즉 인간이 세상을 이해하고 (협력을 통해) 크고 작은 문제를 해결하는 수단이 곧 언어다.

우선 데이터 지능의 개념을 설명하기 위해 데이터의 본질로 돌아가보자. 지난 글에선 데이터를 ‘현상의 불완전한 반영’으로 정의했는데 (인간의) 언어에 비유하면 이해가 좀 더 수월해진다. 언어 역시 현상의 불완전한 반영이긴 매한가지지만 인간은 언어를 통해 현상을 추상화시켜 이해할 수 있다. 또한 언어는 갖가지 사고와 추론, 타인과의 소통을 가능케 하는 도구이기도 하다. 즉 인간이 세상을 이해하고 (협력을 통해) 크고 작은 문제를 해결하는 수단이 곧 언어다.

데이터도 △문제 해결을 목표로 현상을 추상화시켜 이해하고 △다양한 추론을 거쳐 결론을 유도하며 △(그렇게 생성된) 결론을 타인과 소통할 수 있게 돕는 도구란 점에서 언어와 다르지 않다. 언어의 문법에 해당하는 게 (데이터의 개념적 기반을 제공하는) 수학과 통계학이며, 실제 데이터를 저장하고 처리하는 정보 기술은 언어의 활자에 해당한다고 볼 수 있다. (실제로 이 같은 연관성을 고려해 혹자는 수학을 ‘자연의 언어’로 정의하기도 한다.

언어와 데이터가 모든 면에서 공통점을 띠는 건 아니다. 일단 사회적 규약이어서 크게 변화하지 않는 언어와 달리 데이터 관련 학문과 기술은 엄청나게 빠른 속도로 발전하고 있다.

언어와 데이터가 모든 면에서 공통점을 띠는 건 아니다. 일단 사회적 규약이어서 크게 변화하지 않는 언어와 달리 데이터 관련 학문과 기술은 엄청나게 빠른 속도로 발전하고 있다. 그 결과, 데이터로 할 수 있는 일의 종류는 과거에 비해 크게 늘었다. 결과물의 질도 계속 향상되고 있다. 최근 데이터 관련 기술, 그중에서도 인공지능이 특히 각광 받는 이유다.

그런데 사람들 대다수가 언어는 자유롭게 사용하면서도 데이터 활용엔 불편함을 느낀다. 이런 경향은 다양한 형태로 표출된다. 어떤 이는 여전히 데이터에 의한 결론을 무시하고 어떤 이는 데이터를 토대로 한 결론이라면 덮어놓고 맹신한다. 하지만 데이터 기반 문제 해결 과정에 대한 기본적 이해를 갖춘다면 데이터의 가능성과 한계 둘 다 명확하게 인식하고 균형 잡힌 시각을 갖출 수 있을 것이다.

또 하나, 데이터 작업은 혼자 수행하기도 하지만 현업에선 대부분 전문가와 함께 일하게 된다. 건축주가 건축가와 일할 때 세세한 기술적 고려 사항을 전부 알 필요가 없듯 도메인 전문가는 데이터 전문가에게 문제 관련 요구 사항을 주고 중간중간 해결 과정을 도우며 최종 결과물의 품질을 제대로 평가할 수 있으면 된다. 이번엔 이런 협업 환경을 가정하고 데이터 기반 문제 해결의 각 단계에 필요한 역량과 유의 사항을 살펴보자.

#2. 데이터 수집·기획은 문제 정의 이후에

현실을 데이터로 표현하는 단계에서 필요한 건 데이터로 해결해야 할 문제를 명확히 정의하고 필요한 데이터를 수집하는 기획력이다.

현실을 데이터로 표현하는 단계에서 필요한 건 데이터로 해결해야 할 문제를 명확히 정의하고 필요한 데이터를 수집하는 기획력이다. 문제를 제대로 정의하려면 데이터로 해결할 수 있는 문제가 뭔지부터 알아야 하며, 그러려면 데이터 과학의 기본 개념과 주요 분석 기법의 개요 정돈 이해할 필요가 있다. 역시 건축에 비유하면 이 과정은 예산 범위에서 어떤 자재와 구조로 시공할 수 있는지 가늠하는 절차와 같다.

그렇다면 데이터 수집 단계에 해당하는 기본 개념엔 어떤 게 있을까? 앞서 데이터를 ‘현실의 불완전한 반영’으로 정의했는데 여기서 불완전성은 문제 해결에 필요한 속성과 관찰 결과를 추출하는 과정에서 발생한다. 측정값의 오차 범위는 표본 크기의 제곱에 반비례하므로 데이터가 많을수록 정확하지만 데이터 수집 과정에선 필연적으로 비용이 발생하기 때문에 문제 해결에 필요한 최소한의 데이터를 모아야 하는 것이다.

결국 다음 질문은 ‘최소한의 데이터가 얼마만큼인가’로 귀결된다. 통계학에선 이를 ‘표본량 추정 문제’라고 일컫는다. 이때 필요한 표본량은 기본적으로 ‘현상 관찰 시 발생하는 노이즈의 정도(분산)’과 ‘문제 해결에 필요한 측정의 정밀도’ 등에 의해 결정된다. 구체적 추정 방법은 측정값(문제)의 종류에 따라 조금씩 달라지지만 기본 개념은 상당히 직관적이다. 데이터 전문가가 아니라면 데이터 양과 오차 간 관계 정도만 이해하면 된단 얘기다.

#3. 모델링, 결국 ‘인간 판단 자동화 과정’

데이터를 바탕으로 결론을 도출하는 단계에서 필요한 건 데이터를 정제하고 각종 분석 기법을 적용하는 분석력이다. 건축주가 스스로 맘에 드는 건물을 지으려면 일단 본인이 원하는 건물 모습을 상세히 설명한 후 그 내역을 누구나 이해할 수 있는 문서로 남겨둬야 한다.

데이터를 바탕으로 결론을 도출하는 단계에서 필요한 건 데이터를 정제하고 각종 분석 기법을 적용하는 분석력이다. 건축주가 스스로 맘에 드는 건물을 지으려면 일단 본인이 원하는 건물 모습을 상세히 설명한 후 그 내역을 누구나 이해할 수 있는 문서로 남겨둬야 한다. 데이터 전문가와 일할 때에도 마찬가지다. 해결하고자 하는 문제의 최종 결과물과 가용 자원 등을 정확하게 소통하는 작업이 우선적으로 이뤄져야 한다.

좋은 자재를 써야 튼튼한 건물이 완성되는 것처럼 데이터 프로젝트를 진행할 때에도 양질의 데이터 확보는 기본이다. 문제는 데이터를 직접 수집하지 않는 한 데이터 품질을 섣불리 판단하기 어렵단 사실이다. 따라서 데이터 과학자가 이미 존재하는 데이터를 활용, 효과적으로 작업하려면 데이터에 대한 상세 설명이 필요하다. 그리고 이를 제공하는 건 (데이터 전문가와 협업하는) 도메인 전문가의 몫이다.

끝으로 데이터 과학자의 주된 역할이라 할 수 있는 모델 수립 과정에서도 도메인 전문가의 도움은 결정적이다. 앞서 밝혔듯 최신 기계학습 모델을 만드는 일조차 결국 인간의 직관적 판단을 자동화하는 과정에 지나지 않기 때문이다. 예를 들어 예측 모델을 만든다면 해당 모델에 사용할 속성 관련 아이디어는 도메인 전문가 머리에서 나오는 경우가 잦다. 또한 모델의 성능을 분석, 개선하는 도중에도 모델의 실수에서 주목할 만한 유형(pattern)을 찾아야 하는데 이 역시 도메인을 깊이 있게 이해하지 않으면 불가능한 일이다.

#4. 성과 평가할 땐 유형별 문제 고려해야

데이터에 근거한 결론을 해석하고 이를 현실에 반영하는 단계에서 필요한 건 결론과 근거를 날카롭게 검증할 수 있는 비판력이다.

데이터에 근거한 결론을 해석하고 이를 현실에 반영하는 단계에서 필요한 건 결론과 근거를 날카롭게 검증할 수 있는 비판력이다. 데이터 저널리즘이 보편화된 시대, 무수히 쏟아지는 정보에서 옥석을 가리고 세상에 대한 바른 인식을 갖추기 위해서라도 현명한 데이터 소비자로서의 소양을 기르는 건 필수다. 앞서 설명한 문제 해결 과정에 성실히 참여해온 도메인 전문가라면 분석 결과의 의의와 한계를 정확하게 간파하고 있을 것이다. 이런 이유에서라도 데이터 과학자에게 문제 해결을 일임하는 건 바람직하지 않다.

하지만 막상 실무를 진행해보면 자신이 참여하지 않은 데이터 프로젝트의 성과를 평가할 일이 꽤 자주 발생한다. 이럴 때 현명한 판단을 내리려면 어떻게 해야 할까? 가장 먼저 할 일은 단계별로 발생 가능한 문제의 유형을 떠올리는 것이다. 우선 원본 데이터에 오류나 편향이 있을 수 있다. 이럴 때엔 데이터를 어떤 경로에서 어떻게 수집했는지 살피고, 가능하면 반드시 샘플 데이터를 확인한 후 본인의 상식에 비춰 어긋나는 점이 없는지 검증해야 한다. (앞서 설명한 대로 문제 해결 과정이 올바르다면 데이터와 관련된 상세 문서가 존재할 것이다.)

다음으로 데이터 가공 과정에서 문제가 발생할 수도 있다. 데이터 가공 시 일반적으론 원본 데이터 중 필요한 데이터를 선별하고, 이를 원하는 단위로 집계해 모델링에 적절한 형태로 가공한다. 문제는 그 과정에서 다양한 오류와 편향 가능성이 존재한단 사실. 따라서 이런 문제를 미연에 방지하려면 가공 과정을 상세히 들여다보며 문제점을 파악하고 가급적 가공 이후 정제된 데이터 샘플을 살필 필요가 있다. (데이터가 현실의 반영이란 사실을 기억한다면 상식에 비춰 잘못된 부분에 대해 문제를 제기하는 건 당연한 일이다.)

마지막으로 분석을 수행하고 결론을 내는 과정에서 발생할 수 있는 문제도 생각해봐야 한다. 이 단계에서 고려해야 할 사항은 △프로젝트 목표와 데이터 성격에 따라 적합한 모델을 선택했는가 △모델의 세부 매개 변수(parameter)는 어떻게 결정했는가 △결과 평가에 사용된 지표는 적절한가 △뚜렷한 정답셋(answering dataset)이 있는 예측 프로젝트의 경우, ‘학습 데이터’와 ‘평가 데이터’를 올바로 나눠 사용했는가 등이다. 정답셋이 없는 프로젝트라 해도 본인의 직관과 결과가 얼마나 일치하는지 평가할 수 있을 것이다.

#5. 문제 해결 성패, 관건은 ‘축적된 경험’

최근 빅데이터와 인공지능 관련 기술이 각광 받으며 적지 않은 이가 이런 기술만으로 문제를 해결하거나 가치를 창출할 수 있을 거라고 믿는다. 하지만 인공지능과 데이터는 언어와 마찬가지로 현상을 추상화해 해석, 추론할 수 있게 해주는 도구일 뿐이다. 따라서 데이터를 통한 문제 해결이 성공을 거두려면 그 기반이 되는 현상을 깊이 있게 알아야 할 뿐 아니라(도메인 전문성), 여기에 데이터와 그 관련 기술에 대한 이해까지 결합돼야 한다(데이터 전문성).

한 사람이 이 두 요소를 겸비하긴 쉽지 않으므로 실무에선 도메인 전문가와 데이터 전문가가 협업하는 형태가 일반적이다. 그래서 오늘은 이 과정에서 도메인 전문가에게 요구되는 역량과 문제 해결의 단계별 고려 사항을 짚어보고자 했다. 이 글에서 언급한 사항을 유념하며 문제 해결 경험을 꾸준히 쌓아나가면 어느새 데이터로 해결 가능한 문제가 보이기 시작하고(기획력), 문제 해결 방법이 떠오르며(분석력), 문제 해결 과정을 듣기만 해도 그 가치와 한계를 평가할 수 있는(비평력) 경지에 이르게 될 것이다. ※이 칼럼은 해당 필진의 개인적 소견이며 삼성전자의 입장이나 전략을 담고 있지 않습니다