데이터 공부에 의외로 도움 되는 ‘공개 정보 분석 훈련’
지난 회차 칼럼에선 데이터 지능을 키우는 방법 중 하나로 ‘일상(이나 업무) 관련 문제를 데이터로 해결하는 방법’에 대해 소개했다. 실제로 사람들 대부분이 자신의 문제를 데이터로 풀어가는 과정에서 해결 방안을 찾을 수 있다. 문제 해결을 원하는 고객과 문제를 직접 풀어내는 데이터 과학자의 입장을 동시에 경험할 수도 있다. 그런데 데이터로 해결할 만한 문제 자체를 발견하기 어려울 땐 어떻게 해야 할까?
다행히 최근 데이터 가치에 대한 인식이 높아지면서 시중에 다양한 공개 데이터가 나와있다. 일례로 예전엔 극소수 관계자에게만 개방됐던 공공 데이터의 상당수가 일반에 공개된 상태다. 기업도 경영 활동 도중 수집한 데이터 중 일부를 개인정보 암호화 등 소정의 절차를 거쳐 공개하고 있다. 이 밖에 과학∙미디어∙스포츠 등 다양한 분야에서도 공개 데이터가 쏟아지고 있다.
이번 칼럼의 주제는 ‘데이터 학습 시 공개 데이터 활용하기’다. 독자의 이해를 돕기 위해 한 가지 ‘샘플 데이터’를 예로 들어 설명할 생각이다. 데이터 과학 관련 문제 해결 모델을 개발, 분석하는 플랫폼 기업 ‘캐글(Kaggle)’은 전 세계에서 활동 중인 데이터 과학자 조사 결과를 발표한 적이 있다. 캐글이 주최하는 데이터 과학 경연에선 대개 주최 측이 문제와 함께 실제 데이터 세트(Data Set)[1]와 평가 기준을 공개한다. 경연은 종종 적지 않은 상금을 걸고 진행되며, 정해진 기한 안에 최고 성과를 거둔 기관이 수상의 영예를 누린다.
이런 경연은 특정 기업이 주최해 1회성으로 진행되기도, 캐글 같은 전문 업체에 의해 치러지기도 한다. 지난해 말 캐글은 자사 웹사이트에 가입한 데이터 과학자를 대상으로 ‘데이터 과학을 공부하고 해당 분야에서 경력을 쌓는 방법’에 대한 조사를 진행했다. 머신러닝(machine learning) 관련 경연을 주로 주최했던 기업 특성상 조사 참여자가 데이터 과학자 전체를 대변한다고 보긴 어렵다. 하지만 총 응답자 수가 1만6700명에 이르는 등 상당한 규모를 갖춘 만큼 이제 막 데이터 과학을 공부하기 시작한 이라면 충분히 흥미를 느낄 만하다.
#1단계_연령∙국적∙교육수준 등 ‘기본 정보 분포’ 파악하기
설문 결과를 본격적으로 살피기 전 응답자의 ‘기본 정보’를 면밀히 들여다볼 필요가 있다. 우선 나이와 거주지. 아래 두 그래프에 따르면 이 조사 응답자의 대다수는 20대 초반부터 30대 초반까지의 미국∙인도 거주자다(한국 국적자는 194명으로 20위권에 해당한다). 그래프에 나타나진 않았지만 약 85%는 남성이었다.
응답자의 교육 수준은 ‘석사> 학사> 박사’ 순(順)으로 많았다. 전공은 컴퓨터과학∙수학∙통계학이 다수를 차지했지만 기타 전공자 수도 만만찮아 수학과 통계학 전공자 수를 훌쩍 넘어섰다. 사회학이나 경영학 등 특이 전공자가 일부 눈에 띄긴 했지만 아직은 데이터 과학 분야가 이과 전공자의 영역이란 사실을 알 수 있다.
#2단계_지도∙데이터 등 시각 자료로 데이터 ‘흐름’ 살피기
이처럼 기본 정보 분포 파악은 데이터 분석 작업의 기초로서 무척 중요하다. 이 사례의 경우, 응답자의 거주지 분포 확인 과정을 거치지 않는다면 추후 대부분의 응답이 미국과 인도에서 왔단 사실을 간과하기 쉽다(이는 자칫 데이터 분석 결과에 오류를 초래할 수 있다).
그럼 이번엔 좀 더 구체적인 분석으로 들어가보자. 국가별 데이터 과학자가 느끼는 삶의 질, 그리고 그에 영향을 끼치는 요인을 살펴볼 생각이다. 판단의 기준이 될 자료는 국가별 응답자의 직업 만족도와 보수, 구직 기간의 평균치를 보여주는 아래 표다.
위와 같은 표는 하나씩 뜯어보면 이해되지만 전체 추세를 파악하긴 어렵다. 특히 이 표에서처럼 지리적 정보(국가)를 시각화할 때 가장 좋은 방법은 지도를 활용하는 것이다. 아래 지도는 국가별 급여 수준 분포를 색상으로 보여준다. 급여 수준은 녹색이 진할수록 높고 빨간색이 진할수록 낮다. 한눈에 봐도 미국과 호주, 유럽 지역에 거주하는 데이터 과학자의 보수 수준이 높단 사실을 알 수 있다.
이번엔 유사한 방식으로 직업 만족도를 확인해볼 차례다. 결과는 아래 지도와 같다. 보수 수준 분포 때와 마찬가지로 서구권 국가의 수치가 비교적 높은 걸 확인할 수 있다. 특이한 건 러시아 데이터 과학자들이다. 보수 수준이 낮은데도 직업 만족도는 높은 편이기 때문. 반면, 아시아 지역 국가들은 보수 수준과 직업 만족도 둘 다 낮게 나타났다.
이처럼 지도를 활용하면 보수 수준과 직업 만족도의 지리적 분포를 쉽게 확인할 수 있다. 하지만 여전히 두 지표 간 상관관계를 파악하기엔 역부족이다. 이 작업을 수행하려면 보다 정교한 장치가 필요하다. 아래 그래프와 같은 일명 ‘스캐터 플롯(scatter plot)[2]’이 대표적이다. 언뜻 보면 보수 수준과 직업 만족도 사이에 여전히 뚜렷한 상관관계가 없는 것 같다. 하지만 국가별 소득 수준 차를 고려하면 (소득 수준 대비) 절대적 보수 수준보다 상대적 보수 수준이 더 많은 정보를 전달하는 지표일 수 있다.
그래서 이번엔 국가별 평균 급여를 1인당 국민소득으로 나눈 상대적 보수 수준을 활용, 아래 그래프를 만들었다. 이 그래프에 따르면 대부분의 국가에서 데이터 과학자는 평균 소득의 1.5배 내지 2배를 번다. 중국∙인도 데이터 과학자는 평균 소득의 곱절 이상을 벌면서도 직업 만족도가 낮았다. 이런 결과를 볼 때 직업 만족도가 오로지 소득 수준에만 좌우되는 건 아니란 사실을 짐작할 수 있다(추가 요인을 찾아내는 일은 독자의 몫으로 남겨둔다).
데이터 시각 키우고 인사이트 찾고… 말 그대로 ‘일석삼조’
이상과 같이 데이터 생활화의 한 방법으로 공개 데이터 활용 요령을 살펴봤다. 적절히 시각화된 자료를 바탕으로 일정 유형(pattern)을 찾아내는 데이터 분석의 묘미를 조금이나마 느꼈길 바란다. 이처럼 분야별로 공개된 자료를 데이터 학습 재료로 활용하면 여러 가지를 배울 수 있다. 이미 정리된 자료에선 얻기 힘은 통찰력(insight)을 발견할 수 있는 건 물론, 데이터를 보는 안목도 키울 수 있다. 캐글의 경우, 이 데이터를 활용∙분석한 결과물에 상금을 지급하기도 했으니 그야말로 ‘일석삼조(一石三鳥)’라 할 수 있다. 내가 운영 중인 홈페이지 ‘데이터 지능 팟캐스트’에 접속하면 공개 데이터를 구할 수 있는 웹사이트와 분석 사례가 여러 개 소개돼 있으니 관심 있는 독자라면 참고해도 좋겠다.
※이 칼럼은 해당 필진의 개인적 소견이며 삼성전자의 입장이나 전략을 담고 있지 않습니다
[1] 컴퓨터에서 사용할 수 있도록 저장된, 유사하거나 관련된 데이터의 집합체
[2] 두 개 이상 변수 분포에서 각 개체를 점으로 표시한 그림. 산점도(散點圖)라고도 한다. 두 변수 간 관계를 시각적으로 검토할 때 유용하다
기획·연재 > 오피니언 > 세상을 잇(IT)는 이야기
기획·연재 > 오피니언
삼성전자 뉴스룸의 직접 제작한 기사와 이미지는 누구나 자유롭게 사용하실 수 있습니다.
그러나 삼성전자 뉴스룸이 제공받은 일부 기사와 이미지는 사용에 제한이 있습니다.
<삼성전자 뉴스룸 콘텐츠 이용에 대한 안내 바로가기>