데이터 생활화 – Samsung Newsroom Korea

데이터 공부에 의외로 도움 되는 ‘공개 정보 분석 훈련’

jinsoo2.park — Thu, 26 Apr 2018 10:00:08 +0000

지난 회차 칼럼에선 데이터 지능을 키우는 방법 중 하나로 ‘일상(이나 업무) 관련 문제를 데이터로 해결하는 방법’에 대해 소개했다. 실제로 사람들 대부분이 자신의 문제를 데이터로 풀어가는 과정에서 해결 방안을 찾을 수 있다. 문제 해결을 원하는 고객과 문제를 직접 풀어내는 데이터 과학자의 입장을 동시에 경험할 수도 있다. 그런데 데이터로 해결할 만한 문제 자체를 발견하기 어려울 땐 어떻게 해야 할까?

다행히 최근 데이터 가치에 대한 인식이 높아지면서 시중에 다양한 공개 데이터가 나와있다. 일례로 예전엔 극소수 관계자에게만 개방됐던 공공 데이터의 상당수가 일반에 공개된 상태다. 기업도 경영 활동 도중 수집한 데이터 중 일부를 개인정보 암호화 등 소정의 절차를 거쳐 공개하고 있다. 이 밖에 과학∙미디어∙스포츠 등 다양한 분야에서도 공개 데이터가 쏟아지고 있다.

이번 칼럼의 주제는 ‘데이터 학습 시 공개 데이터 활용하기’다. 독자의 이해를 돕기 위해 한 가지 ‘샘플 데이터’를 예로 들어 설명할 생각이다. 데이터 과학 관련 문제 해결 모델을 개발, 분석하는 플랫폼 기업 ‘캐글(Kaggle)’은 전 세계에서 활동 중인 데이터 과학자 조사 결과를 발표한 적이 있다. 캐글이 주최하는 데이터 과학 경연에선 대개 주최 측이 문제와 함께 실제 데이터 세트(Data Set)[1]와 평가 기준을 공개한다. 경연은 종종 적지 않은 상금을 걸고 진행되며, 정해진 기한 안에 최고 성과를 거둔 기관이 수상의 영예를 누린다.

이런 경연은 특정 기업이 주최해 1회성으로 진행되기도, 캐글 같은 전문 업체에 의해 치러지기도 한다. 지난해 말 캐글은 자사 웹사이트에 가입한 데이터 과학자를 대상으로 ‘데이터 과학을 공부하고 해당 분야에서 경력을 쌓는 방법’에 대한 조사를 진행했다. 머신러닝(machine learning) 관련 경연을 주로 주최했던 기업 특성상 조사 참여자가 데이터 과학자 전체를 대변한다고 보긴 어렵다. 하지만 총 응답자 수가 1만6700명에 이르는 등 상당한 규모를 갖춘 만큼 이제 막 데이터 과학을 공부하기 시작한 이라면 충분히 흥미를 느낄 만하다.

#1단계_연령∙국적∙교육수준 등 ‘기본 정보 분포’ 파악하기

설문 결과를 본격적으로 살피기 전 응답자의 ‘기본 정보’를 면밀히 들여다볼 필요가 있다. 우선 나이와 거주지. 아래 두 그래프에 따르면 이 조사 응답자의 대다수는 20대 초반부터 30대 초반까지의 미국∙인도 거주자다(한국 국적자는 194명으로 20위권에 해당한다). 그래프에 나타나진 않았지만 약 85%는 남성이었다.

[그래프1] 응답자 연령 분포

[그래프2] 응답자 거주 지역 분포

응답자의 교육 수준은 ‘석사> 학사> 박사’ 순(順)으로 많았다. 전공은 컴퓨터과학∙수학∙통계학이 다수를 차지했지만 기타 전공자 수도 만만찮아 수학과 통계학 전공자 수를 훌쩍 넘어섰다. 사회학이나 경영학 등 특이 전공자가 일부 눈에 띄긴 했지만 아직은 데이터 과학 분야가 이과 전공자의 영역이란 사실을 알 수 있다.

[그래프3] 응답자 교육 수준 분포

[그래프4] 응답자 전공 분포

#2단계_지도∙데이터 등 시각 자료로 데이터 ‘흐름’ 살피기

이처럼 기본 정보 분포 파악은 데이터 분석 작업의 기초로서 무척 중요하다. 이 사례의 경우, 응답자의 거주지 분포 확인 과정을 거치지 않는다면 추후 대부분의 응답이 미국과 인도에서 왔단 사실을 간과하기 쉽다(이는 자칫 데이터 분석 결과에 오류를 초래할 수 있다).

그럼 이번엔 좀 더 구체적인 분석으로 들어가보자. 국가별 데이터 과학자가 느끼는 삶의 질, 그리고 그에 영향을 끼치는 요인을 살펴볼 생각이다. 판단의 기준이 될 자료는 국가별 응답자의 직업 만족도와 보수, 구직 기간의 평균치를 보여주는 아래 표다.

[표] 국가별 응답자의 평균 구직 기간과 보수, 직업 만족도

위와 같은 표는 하나씩 뜯어보면 이해되지만 전체 추세를 파악하긴 어렵다. 특히 이 표에서처럼 지리적 정보(국가)를 시각화할 때 가장 좋은 방법은 지도를 활용하는 것이다. 아래 지도는 국가별 급여 수준 분포를 색상으로 보여준다. 급여 수준은 녹색이 진할수록 높고 빨간색이 진할수록 낮다. 한눈에 봐도 미국과 호주, 유럽 지역에 거주하는 데이터 과학자의 보수 수준이 높단 사실을 알 수 있다.

[그림1] 데이터 과학자의 국적별 보수 수준 분포

이번엔 유사한 방식으로 직업 만족도를 확인해볼 차례다. 결과는 아래 지도와 같다. 보수 수준 분포 때와 마찬가지로 서구권 국가의 수치가 비교적 높은 걸 확인할 수 있다. 특이한 건 러시아 데이터 과학자들이다. 보수 수준이 낮은데도 직업 만족도는 높은 편이기 때문. 반면, 아시아 지역 국가들은 보수 수준과 직업 만족도 둘 다 낮게 나타났다.

[그림2] 데이터 과학자의 국적별 직업 만족도 분포

이처럼 지도를 활용하면 보수 수준과 직업 만족도의 지리적 분포를 쉽게 확인할 수 있다. 하지만 여전히 두 지표 간 상관관계를 파악하기엔 역부족이다. 이 작업을 수행하려면 보다 정교한 장치가 필요하다. 아래 그래프와 같은 일명 ‘스캐터 플롯(scatter plot)[2]’이 대표적이다. 언뜻 보면 보수 수준과 직업 만족도 사이에 여전히 뚜렷한 상관관계가 없는 것 같다. 하지만 국가별 소득 수준 차를 고려하면 (소득 수준 대비) 절대적 보수 수준보다 상대적 보수 수준이 더 많은 정보를 전달하는 지표일 수 있다.

[그래프5] 직업 만족도와 보수 수준 간 상관 관계

그래서 이번엔 국가별 평균 급여를 1인당 국민소득으로 나눈 상대적 보수 수준을 활용, 아래 그래프를 만들었다. 이 그래프에 따르면 대부분의 국가에서 데이터 과학자는 평균 소득의 1.5배 내지 2배를 번다. 중국∙인도 데이터 과학자는 평균 소득의 곱절 이상을 벌면서도 직업 만족도가 낮았다. 이런 결과를 볼 때 직업 만족도가 오로지 소득 수준에만 좌우되는 건 아니란 사실을 짐작할 수 있다(추가 요인을 찾아내는 일은 독자의 몫으로 남겨둔다).

[그래프6] 평균 소득 대비 직업 만족도와 보수 수준 간 상관 관계

데이터 시각 키우고 인사이트 찾고… 말 그대로 ‘일석삼조’

이상과 같이 데이터 생활화의 한 방법으로 공개 데이터 활용 요령을 살펴봤다. 적절히 시각화된 자료를 바탕으로 일정 유형(pattern)을 찾아내는 데이터 분석의 묘미를 조금이나마 느꼈길 바란다. 이처럼 분야별로 공개된 자료를 데이터 학습 재료로 활용하면 여러 가지를 배울 수 있다. 이미 정리된 자료에선 얻기 힘은 통찰력(insight)을 발견할 수 있는 건 물론, 데이터를 보는 안목도 키울 수 있다. 캐글의 경우, 이 데이터를 활용∙분석한 결과물에 상금을 지급하기도 했으니 그야말로 ‘일석삼조(一石三鳥)’라 할 수 있다. 내가 운영 중인 홈페이지 ‘데이터 지능 팟캐스트’에 접속하면 공개 데이터를 구할 수 있는 웹사이트와 분석 사례가 여러 개 소개돼 있으니 관심 있는 독자라면 참고해도 좋겠다.

※이 칼럼은 해당 필진의 개인적 소견이며 삼성전자의 입장이나 전략을 담고 있지 않습니다

[1] 컴퓨터에서 사용할 수 있도록 저장된, 유사하거나 관련된 데이터의 집합체
[2] 두 개 이상 변수 분포에서 각 개체를 점으로 표시한 그림. 산점도(散點圖)라고도 한다. 두 변수 간 관계를 시각적으로 검토할 때 유용하다

데이터 생활화 프로젝트, ‘내 문제’부터 시작해보자

jinsoo2.park — Thu, 22 Mar 2018 10:00:48 +0000

지난 칼럼에선 데이터 지능을 키우는 방법으로서의 데이터 생활화와 그에 유용한 접근 방식을 다양하게 살펴봤다. 그중 하나가 자신의 일상(과 업무) 관련 문제를 데이터로 해결하는 것이었다. 오늘은 그간 내가 수행해온 일명 ‘개인 데이터 과학 프로젝트’ 얘길 좀 해볼까 한다.

개인 데이터 분석 작업의 핵심은 자신의 경험을 최대한 생생하게 전달하는 데 있다. 사실 특정 개인이 자신과 연관된 데이터를 모아 분석한다, 는 게 생소하게 느껴질 수도 있다. 기억력이 별로 좋지 않았던 난 다행히 정리하는 습관이 어릴 때부터 몸에 배어 학창 시절부터 오답 노트를 만들어 썼고, 이후에도 늘 주변 현상을 관찰해 기록으로 남기곤 했다. 일정 관리나 생산성, 행복과 건강, 최근엔 육아에 이르기까지 관심사는 전부 데이터 프로젝트의 대상이 됐다. 그런 열정 덕에 미국 유학을 떠날 수 있었고 지금껏 ‘검색∙추천 분야 데이터 과학자’의 길을 걷고 있다.

데이터 공부를 시작할 때 가장 좋은 방법은 자기 주변 문제와 관련 데이터에 집중하는 것이다. 여기엔 몇 가지 이유가 있다. 우선 자신의 문제를 해결하는 것만큼 동기 부여가 확실한 작업은 없다. 이슈 정의와 데이터 수집∙분석, 결과 공유 등 데이터 문제 해결의 전 과정을 경험할 수도 있다. 타인 데이터 연구를 주로 하는 데이터 과학자에게 개인 데이터 과학 프로젝트는 문제 해결을 원하는 고객 입장을 간접적으로나마 체험할 수 있는 기회이기도 하다.

#프로젝트 01_행복 정도 측정
배부르고 덜 일하면 더 행복할까?

사실 난 데이터 과학자로 일하기 훨씬 전부터 삶과 업무의 정성적(定性的) 측면을 데이터화하려 노력해왔다. 그래서 2002년부터 나 자신의 행복 정도나 생산성을 지표화하기 위해 다양한 프로젝트를 수행했고, 그 과정에서 많은 걸 배우고 느꼈다. 내 경험상 눈에 보이지 않는 현상을 데이터로 만드는 게 결코 쉬운 일은 아니다. 하지만 전혀 불가능한 일도 아니었다. 좀 더 쉽게 설명하기 위해 가장 오랫동안 진행해온 행복 정도 측정 프로젝트를 예로 들어보겠다.

사실 개인의 행복은 워낙 복잡하고 미묘한 가치여서 지표화하려면 다양한 데이터 수집∙처리∙분석 작업이 필수다. 이와 관련, 최근 내가 사용한 도구는 ‘리포터(Reporter)’란 애플리케이션(이하 ‘앱’)이었다. 스스로 설문조사를 수행, 데이터를 수집하는 이 앱에 데이터를 입력하면 앱 자체적으로 제공하는 기본 시각화 정보도 활용할 수 있다.

▲데이터 수집 전문 앱 ‘리포터’의 주요 인터페이스

좀 더 고급 분석이나 시각화 작업을 원한다면 앱 내 데이터를 CSV(Comma Separated Value)[1]나 JSON(JavaScript Object Notation)[2] 형식으로 내려 받은 후 엑셀이나 아르(R)[3] 프로그램을 써서 분석하면 된다. 2015년 초엔 건강∙행복∙생산성 간 상관관계를 분석하기 위해 자바스크립트 대시보드를 만들어 활용했다. 아래 도표는 △포만감(fullness) △행복(happiness) △업무 시간(time) 간 관계를 보여준다. 그 과정에서 D3.js[4]처럼 다양한 시각화 도구를 익힐 수 있었던 건 덤이다.

▲내 건강과 행복 정도, 생산성 간 상관관계를 보여주는 도표

#프로젝트 02_육아 데이터 수집
‘10시간 통잠’ 기적, 비결은 이것!

지난해 6월 예쁜 딸을 얻은 후 ‘초보 부모’로서 갖가지 경험과 도전을 소화하고 있다. 나름 ‘데이터 마니아’인 만큼 (육아라는) 새 과제에 맞서는 방법으로도 데이터를 활용했다. 아직 첫돌도 지나지 않은 아이와 대화를 나누는 건 무리지만 언제, 얼마나 먹고 자고 용변 보는지 파악할 수 있다면(그리고 그 결과 어떻게 성장하는지 가늠할 수 있다면) 아이의 건강과 성장 상태를 이해하고 적절한 의사 결정을 내릴 수 있겠단 생각이었다.

다행히 꽤 다양한 육아 데이터 기록∙분석 앱이 시중에 나와있었다. 그중 내가 고른 건 ‘스프라우트(Sprout)’였다. 아이의 식사와 수면, 활동 내역은 물론이고 성장∙발달 상황까지 기록할 수 있어 특히 맘에 들었다. ‘아기추적기(Baby Tracker)’도 평이 좋았지만 개인적으론 데이터 입∙출력 용이성(CSV 형태로 다운로드) 측면에서 스프라우트만 한 앱이 없다고 생각했다. 기록해둔 데이터를 추출할 수 있어야 추가 분석도 가능해지기 때문이다.

아래는 스프라우트의 데이터 입력 인터페이스다. 아이를 먹이고 입히며 재우다 보면 매 시점에 정확히 데이터를 입력하는 게 거의 불가능하단 사실을 알 수 있다. (아이가 울어대는데 데이터를 기록할 정신이 어디 있겠는가!) 나 역시 하루에도 수십 번씩 데이터를 기록하고 수정하길 반복했다. 스프라우트는 데이터를 즉각적으로 입력하기 어려운 육아 특성에 맞춰 지나간 데이터 입력과 입력한 내용 수정 둘 다 용이하다. 데이터 기록 작업이 하루에도 수십 차례 이뤄지는 게 다반사인 만큼 이 같은 ‘디테일(detail)’은 무척 중요하다.

▲육아 트래킹 앱 ‘스프라우트’의 데이터 입력 인터페이스

아래 이미지는 지난해 9월 기록한 딸아이의 주간 수면·수유·배변 패턴과 최근 이틀간의 수유, 그리고 수유 상세 데이터<왼쪽부터 차례로>다. 왼쪽 도표를 좀 더 자세히 보면 아이는 매일 주로 오전 8시에 일어나 여섯 번 150㎖의 분유를 먹고 2회 용변을 본다. 그러곤 서너 차례 낮잠을 잔다. 이처럼 앱에서 기본적으로 제공하는 기능만 활용해도 아이의 일상 유형을 한눈에 파악할 수 있다.

▲스프라우트에서 출력한 딸아이의 일상 유형

육아 데이터는 자녀의 성장 과정에서 미시적 의사 결정과 거시적 습관 형성에 모두 도움이 된다. 부모 입장에선 매 순간 아이가 보내는 다양한 신호(주로 울음)에 적절히 대응해야 하는데 수유(수면) 데이터를 잘 분석하면 배가 고픈지, 졸린지 혹은 다른 문제가 있는지 판단할 수 있다. 나도 이 과정을 거쳐 “수유 후 한 시간쯤 지나면 아이를 재우고 서너 시간이 지나면 다시 수유하는” 걸 규칙으로 정했다.

물론 아이가 늘 이 규칙대로 먹고 자는 건 아니지만 데이터를 활용하면 보다 큰 틀에서 상황을 파악, 아이의 일정을 관리할 수 있다. 내 경우를 예로 들면 1일 수유 횟수와 양을 관리해 매일 오후 8시부터 이튿날 오전 7시까진 되도록 아이를 재우려고 노력했다. 그 결과, 아이는 비교적 규칙적인 식사·수면 습관을 갖게 됐고, 생후 100일 전후부턴 밤에 10시간 이상 자는 착한(!) 아이가 됐다.

생후 100일 전후 나타나는 아이의 변화는 하루 중 수유 시각∙간격 간 관계를 시각화하면 보다 확실히 알 수 있다. 난 수유 시각을 정확히 맞추기보다 정해진 수유 간격을 유지하는 데 중점을 뒀다. 하지만 아래 그래픽을 보면 평균 수유 간격이 점점 벌어지는 걸 알 수 있다. 딸아이는 생후 100일 전에도 밤에 한 번 이상 깨지 않는 게 보통이었지만, 그 이후부턴 오후 일고여덟 시에 수유한 후 10시간 전후로 한 번도 깨지 않고 잠들어줘 부모를 기쁘게 했다(우리 부부는 이를 가리켜 ‘100일의 기적’이라고 불렀다).

▲딸아이를 키우며 기록한 수유 시각(X)과 수유 간격(Y) 간 관계 분포 그래프

이제 당신 차례… 중요한 건 ‘일단 시도하기’

위 두 프로젝트 사례는 대단한 기술을 필요로 하지 않았다. 하지만 다양한 데이터와 문제를 접하고 분석 경험을 쌓는 덴 큰 도움을 줬다. 제일 뜻 깊었던 건 연습을 거듭하며 데이터 과학에 대한 관심과 열정을 키워나갈 수 있었단 사실이다. 내가 데이터 과학자라서 가능했던 건 아니다. 누구든 데이터 분야에 조금만 관심을 갖고 주변을 둘러보면 흥미로운 사례는 얼마든지 찾아낼 수 있다. 만약 아무리 둘러봐도 적절한 문제가 발견되지 않는다면 다양한 공개 데이터를 활용하면 된다.

다음 회차에선 공개 데이터를 데이터 학습에 활용하려면 어떻게 해야 하는지 알아보겠다. 아울러 이해를 돕기 위한 사례도 다양하게 들여다볼 생각이다.

※이 칼럼은 해당 필진의 개인적 소견이며 삼성전자의 입장이나 전략을 담고 있지 않습니다

[1] 쉼표를 기준으로 항목을 구분, 저장한 데이터. 데이터베이스나 표 계산 소프트웨어 데이터를 보존할 때 사용한다
[2] 가벼운 데이터 교환 형식. 사람이 읽고 쓰기 쉬운 건 물론, 기계 분석 작업 시에도 용이하다
[3] 오픈소스(Open Source) 프로그래밍 언어 중 하나. 다량의 데이터를 통계적 방법으로 분석할 때 쓰인다
[4] 데이터 시각화를 구현하는 자바스크립트 라이브러리