[스페셜 리포트] 소프트웨어, 세상을 바꾸다_②‘개방형 지식그래프’ 구축 뛰어든 삼성전자
▲영국 지리학자 티에리 그레고리우스의 카툰은 검색 엔진의 미래를 풍자적으로 묘사한다(카툰 원본 보러 가기)
벨기에 브뤼셀 공항. 비행기에서 막 내린 여행자가 공항 입국심사대 앞에 선다. 부스 안 기계가 여행자의 여권 첫 페이지를 스캔하자, 심사원 앞 모니터엔 다양한 정보가 떠오른다. 최근 3년간 상품 구매 기록, 은행 거래 내역, 세금 납부 이력, 거주지 변동 사항을 비롯해 페이스북이나 트위터 같은 SNS 이용 현황까지 빠르게 훑어낸 모니터는 마침내 여권 소지자의 ‘관광객(으로서의) 가치’를 수치화해 보여준다. “당신의 정보를 종합한 결과, 유럽연합은 당신을 23.5% 환영합니다.”
물론 이건 실제 상황이 아니다. 영국 지리학자 티에리 그레고리우스(Thierry Gregorius)가 최근 유럽연합(EU)의 행보를 풍자해 그린 카툰의 한 장면을 문장으로 재구성한 것이다. 실제로 EU는 최근 여러 데이터를 통합, 분석해 유용한 행정 정보로 변환시키는 프로젝트를 추진 중이다. 이 카툰은 해당 프로젝트가 실현된 이후 일어날 수 있는 상황에 대한 상상인 셈이다.
이 카툰은 지식그래프(knowledge graph)를 비롯, ‘미래형 검색이 지향하는’ 세상을 또렷하게 보여준다. 입국심사 부스 내 모니터에 띄워진 정보가 곧 심사 대상자에 대한 지식그래프인 셈이다. 이 모니터는 여권을 활용, 눈앞 여행자의 각종 정보를 순식간에 읽어 들인 후 정확하게 입국심사원이 원하는 형태로 제시한다.
‘데이터 홍수 시대’, 정보 취급 방식도 달라져야
전편(‘소프트웨어, 세상을 바꾸다_①검색시장의 새 이정표, 지식그래프’)에서 살펴봤듯 지식그래프는 적어도 두 가지 요건을 충족시켜야 한다. 출처가 서로 다른 대량의 데이터를 통합한 후 정리하는 게 하나, 최종 사용자(end-user)의 요구 사항에 맞춰 그 결과를 일목요연한 콘텐츠 형태로 도출하는 게 다른 하나다.
데이터 처리 기술에 관한 한 카툰과 현실 간 거리는 상당하다. 일단 웹 공간에 엄청난 데이터가 계속 모이며 그 총량이 엄청나게 늘고 있다. 지금 이 시각에도 전 세계 곳곳에 보급된 단말기를 통해 새로운 데이터가 수시로 입력된다. 각각의 데이터가 서로 연계되면서 그 양은 눈덩이처럼 불어난다.
마틴 힐버트(Martin Hilbert) 미국 캘리포니아대학 데이비스캠퍼스(University of California, Davis) 교수가 2011년 발표한 연구 결과에 따르면 매일 2.5엑사바이트(EB, 1엑사바이트는 10의 18승 바이트)의 데이터가 새롭게 창출된다. 이는 언어를 사용할 줄 아는 인류가 탄생한 약 20만 년 전부터 1950년까지 사용된 단어 총계의 절반에 해당하는 양이다. 정보의 효율적 활용을 목적으로 개발된 인터넷 네트워크가 ‘데이터 홍수’로 인해 정보 이용을 오히려 어렵게 하고 있는 모양새다.
이 같은 상황은 컴퓨팅 분야에서 몇 가지 단계별 과제를 제시한다. △필터링(filtering) △분석(analysis) △큐레이션(curation) △디스플레이(display) △보안(security) 등이 그것. 필터링은 특정 데이터가 검색의 맥락에 맞는지 판단하고 그 중 신뢰할 만한 것들을 선별하는 작업을, 분석은 데이터가 검색 단계에서 던지는 메시지를 파악한 후 메시지 간 관련성을 따져보는 작업을 각각 의미한다.
분석된 정보 가운데 유의미한 값들을 체계적으로 정렬, 보관하는 문제는 큐레이션의 영역이다. 큐레이션 작업이 끝난 후엔 선택된 자료를 보기 편하고(visible) 검색하기 편하게(browsible) 만드는 디스플레이 과제가 기다리고 있다. 마지막 보안 단계에선 시스템 해킹을 예방하는 동시에 중요한 내용이 사적 영역 밖으로 나가지 못하도록 잠그는 작업이 이뤄진다. 최근 IT산업의 주요 화두로 떠오르는 ‘빅데이터(Big Data)’ 역시 이 같은 과정을 거쳐 생성된다고 할 수 있다.
빅데이팅 작업, 관건은 ‘최종 사용자’ 배려
빅데이터는 그 명칭 때문에 자칫 ‘많은 내용을 담고 있어 용량이 커진 데이터’로 여겨질 수 있지만 실은 ‘대량의 데이터를 처리하는 방식’을 설명할 때 더 자주 쓰인다. 다시 말해 빅데이터, 혹은 빅데이팅(Big Dating)은 오늘날 소프트웨어 산업의 핵심이기도 한 ‘정보의 가공과 이용 편의성을 향한 노력’을 일컫는 용어에 보다 가까운 개념이라고 할 수 있다.
카툰 속 브뤼셀 공항 검색대에서와 같은 일이 실제로 일어나려면 빅데이팅 절차가 필요하다. 특정 정보에 대한 종합적 의미 검색이 이뤄지기 위해선 데이터가 구조화되고 서로 다른 데이터들이 연결돼야 한다. 특정인의 프로파일과 쇼핑·여행 등에 관한 취향 등 방대한 정보들이 서로 연결되고 사람이 생각하는 방식으로 데이터가 표현됐을 때 컴퓨터는 정보의 의미와 관계를 이해해 처리하고, 궁극적으로 최적의 결과를 돌려준다. 위키피디아(백과사전), IMDB(영화), 뮤직브레인즈(음악), CIA 팩트북(국가정보) 등 잘 알려진 데이터세트(data set, 컴퓨터 데이터 처리에서 1개 단위로 취급하는 데이터의 집합)들도 특정 목적을 갖고 구축된 것들이다. 이런 데이터세트 역시 데이터 간 정보가 서로 연결되고 참조하는 형태로 변화하고 있으며, 이 데이터들이 연결되면 사용자 요구에 따라 최적의 정보를 제공할 수 있다. 이 일련의 과정이 모두 ‘빅데이팅’이다.
사실 모든 비즈니스는 종류에 관계없이 최종 소비자를 염두에 두고 진행된다. 컴퓨터 기술 개발 분야도 마찬가지다. 아무리 최첨단 기술로 뛰어난 기능을 갖춘 컴퓨터를 개발했다 하더라도 최종 사용자가 쓰기에 불편하면 외면 당하기 십상이다. 이 때문에 최근 IT 업계에선 일명 ‘최종 사용자형 컴퓨팅(end-user computing)’의 중요성이 날로 강조되고 있다.
최종 사용자형 컴퓨팅 개발 시 가장 많은 일을 하는 건 개발자들이다. 좀 더 정확하게 말하면 분석가와 개발자, 디자이너 등 개발 단계에 관여하는 모든 이의 협업이 중요하다. 이들이 개발한 검색 도구가 최종 사용자에게 지식그래프를 제공하면 최종 사용자는 이를 활용하거나 서로 다른 데이터를 연결, 데이터 확장에 기여할 것이다. 이렇게 넓어지고 깊어진 데이터는 또 다시 개발자에게 새로운 기회와 과제를 부여한다. 정보의 세계는 이 과정을 무한대로 반복하며 선순환을 거듭하게 된다.
▲지식그래프는 개발자와 최종 사용자의 끊임없는 상호 작용에 의해 한층 풍부하고 깊이 있는 형태로 발전해 나아간다
‘집단지성 놀이터’ 본격 구축 나선 삼성전자
지식 세계는 하루가 다르게 발달하는 정보 기술과 함께 점점 더 진화해가고 있다. 웹(web)이란 가상의 공간은 그야말로 지구촌 사람들 모두의 사회·문화적 공간이 됐다. 모바일 기기 시장의 팽창으로 누구든 이 공간에서 뛰놀 수 있는 자격을 얻었다.
▲삼성전자 소프트웨어센터는 4월 1일 온라인 개발자 커뮤니티 ‘기트허브닷컴(github.com)’에 지식그래프를 구축하기 위한 데이터와 구축 도구 일부를 공개했다. 이번에 선보인 소프트웨어는 데이터 간 동일관계를 나타내는 ‘세임애즈(sameAs)’. 삼성전자는 이후에도 지식그래프 구축 솔루션을 순차적으로 공개할 예정이다
▲삼성전자 소프트웨어센터가 지난해 시험적으로 만든 지식그래프 애플리케이션 ‘그노시스(Gnosis)’의 초기 화면(왼쪽 사진). 영화 ‘빅히어로’(원제 ‘Big Hero 6’) 관련 기사를 읽다가 궁금한 단어가 나왔을 때 오른쪽 ‘지식 태그(Knowledge Tag)’를 클릭하면 검색 창으로 곧장 넘어갈 수 있다. 검색 화면에서 목소리 출연 배우 스캇 애짓(Scott Adsit)’에 대해 더 알고 싶으면 그의 이름을 클릭하면 된다(오른쪽 사진). 그노시스는 빅히어로에 ‘스마트 테크놀로지’ ‘카네기멜론대학교’ ‘리듬앤드블루스’ 등 사용자가 궁금해할 법한 연관 검색어를 지식 태크 형태로 촘촘하게 심어 의미망 확장을 시도하고 있다
지난달 1일, 삼성전자 소프트웨어센터는 온라인 개발자 커뮤니티 ‘기트허브닷컴(github.com)’에 지식그래프 구축을 활용할 수 있는 데이터와 소프트웨어를 공개했다. 이번에 공개한 건 삼성전자의 지식그래프 프로젝트 ‘케이샵(K#, K-Sharp, Samsung Knowledge Sharing Platform)’의 일부다. 케이샵은 ‘삼성전자형 지식그래프’를 생성하고 지식 기반 서비스를 제공하려는 목적 아래 추진 중인 프로젝트다. 삼성전자의 지식그래프는 백과사전처럼 광범위한 지식과 기업 환경에서 사용되는 전문 지식으로 구성돼 있다. 현재 기트허브엔 백과사전 지식을 구축하기 위한 데이터 모델, 대규모 오픈 지식 베이스의 통합을 위한 동일관계 정의 데이터와 구축 도구가 포함돼 있다.
공개한 데이터의 일부인 ‘세임애즈(sameAs)’는 그 명칭에서 유추할 수 있듯 지식그래프를 이루고 있는 개념 간 동일 관계를 나타낸다. 예를 들어 ‘탑’이란 키워드를 입력했을 때 수많은 데이터 가운데 아이돌 그룹 빅뱅 멤버 탑(T.O.P)의 최신 뮤직 비디오 ‘루저’와 배우 탑(본명 최승현)의 출연작인 ‘타짜-신의 손’ 포스터 사이에서 ‘가수 겸 배우 탑’의 개념을 찾아 ‘두 데이터 속 탑은 동일 인물’이란 관계를 설정해주는 식이다. 사실 이 같은 과정은 경험과 학습에 의해 인지되며 컴퓨터가 자동으로 이런 정보를 저장하고 이해하기란 불가능하다. 세임애즈 데이터는 대규모 데이터 사이에서 동일 개체란 걸 표현해 컴퓨터가 자동으로 판단할 수 있는 기준 정보가 된다. 이런 정보가 주어지면 컴퓨터는 ‘가수 겸 배우 탑’과 ‘일반명사 탑(tower)’이 다르다는 사실도 자연스레 유추할 수 있다.
케이샵 프로젝트 추진 업무를 담당하고 있는 김학래 삼성전자 소프트웨어센터 책임은 “세임애즈 관계를 찾는 건 데이터 재사용과 통합 과정에서 필수적이지만 매우 어려운 문제 중 하나”라며 “그런 의미에서 케이샵 프로젝트는 오픈 지식그래프 커뮤니티 형성에 기술적으로 기여할 수 있는, 중요한 첫걸음이 될 수 있다”고 강조했다.
이번에 공개되는 세임애즈 데이터 결과물은 대표적 오픈 데이터베이스인 프리베이스(Freebase)와 위키데이터(WikiData) 사이의 동일 관계를 찾아낸 데이터세트와 연관돼 있다. 총 440만 건 규모인 이 데이터세트는 구글에서 공개한 세임애즈 데이터세트보다 정보량이 두 배 가까이 많다. 삼성전자가 공개한 세임애즈 데이터는 바로 이 데이터세트를 생성하기 위한 소프트웨어 소스코드다.
▲‘세임애즈’ 데이터 구조를 설명 중인 김학래 책임. 김 책임에 따르면 검색 키워드는 언어로 표현된 개념 간 연관 관계를 드러내는 연결망, 일명 ‘온톨로지(ontology)’ 속에 위치한다. 지식그래프의 완성도는 이 연결망을 얼마나 유기적으로 구성, 최종 사용자에게 보여주느냐에 따라 달라진다
“진짜 경쟁력은 ‘협력’과 ‘공유’서 나온다”
“웹의 경쟁력은 협력에서 나옵니다. 변화의 속도가 빠르고 그 폭도 무한대로 확장된 현대 사회에서 하나의 기업이 한 가지 주제의 기술만 깊게 파고 들긴 쉽지 않죠. 이런 한계를 극복하려면 외부와의 협업, 그리고 아이디어 공유가 반드시 필요합니다. 데이터의 적절한 개방은 그런 의미에서 기업과 개발자, 최종 사용자 모두에게 도움이 될 겁니다. 케이샵 프로젝트는 “그간 개발해온 관련 결과물을 순차적으로 공개해 지식그래프 생성을 위한 오픈 커뮤니티에 능동적 행위자로 뛰어들겠다”는 삼성전자의 선언입니다. 궁극적으론 삼성전자의 기술 수준 향상을 위한 ‘오픈 이노베이션(open innovation)’과 장기적 기술 개발의 토대가 되는 ‘기술 네트워크 형성’ 등 두 마리 토끼를 모두 잡을 수 있길 기대하고 있습니다.”
김학래 책임은 “케이샵 프로젝트가 성공적으로 안착하면 전 세계 개발자들이 자유롭게 협업할 수 있는 공간이 또 하나 탄생하게 될 것”이라며 기대감을 내비쳤다. 일단 (세임애즈 데이터가 공개된) 기트허브닷컴 내 초기 반응은 고무적이다. 특히 시맨틱 웹 분야의 세계적 권위자인 프랭크 반 허멀른(Frank van Hermelen) 네덜란드 암스테르담자유대(Vrije Universiteit Amsterdam) 교수는 삼성전자 소프트웨어센터의 지식플랫폼 공개 소식을 자신의 트위터에 소개하기도 했다.
삼성전자는 지난해 2월부터 소프트웨어센터를 중심으로 지식그래프 구축을 준비해왔다. 올 2월엔 센터 내 오픈소스그룹이 합류하며 지식그래프의 ‘오픈소스화(化)’를 추진해왔다. 이번 데이터 공개는 그 첫걸음인 셈이다(삼성전자 소프트웨어센터는 올해 중 단계적으로 지식그래프를 구축하기 위한 솔루션과 데이터, 지식 기반 서비스를 지원하는 API 등을 공개할 예정이다. 특히 국내에서 활용도가 높은 데이터를 링크드 데이터(Linked Data)로 구축, 선보일 계획이다).
삼성이 앞장서는 소프트웨어 환경 개선 작업
▲케이샵 프로젝트의 개념을 설명하고 있는 장석진 삼성전자 소프트웨어센터 책임. 그는 “케이샵 프로젝트는 양질의 소프트웨어 개발 소스를 대외에 공유해 국내외 소프트웨어 개발 환경을 보다 나은 방향으로 가꿔가는 동시에 삼성전자의 소프트웨어 경쟁력 제고에도 기여할 수 있어 그야말로 일석이조”라고 강조했다
삼성전자가 지식그래프 관련 데이터와 소스를 공개한 배경엔 세계 각지에 산재해 있는 개발자들을 초대해 한데 어울리게 하려는 의도가 있다. 이제까지의 검색엔진이 외부에선 보이지 않는 벽을 세워놓고 건물을 높이 쌓아 올리는 방식으로 개발됐다면 삼성전자는 널찍한 공터를 마련해놓고 필요한 자재와 공구를 제공하며 ‘살기 좋은 집단 주택’을 만드는 데 기여할 수 있는 전문가들을 불러 모으는 방식으로 신개념 검색엔진 개발에 뛰어든 것.
삼성전자식(式) 지식그래프 구축 과정은 필연적으로 크고 작은 커뮤니티 구성 작업을 수반한다. 보다 좋은 주택을 만들려면 분야별 전문가들이 자유롭게 이합집산하며 의견을 주고받아야 하기 때문이다. 중요한 건 그 작업이 즐거울 수 있도록 제반 환경이 구축되는 일이다. 그리고 삼성전자는 케이샵 프로젝트를 출범시키며 기꺼이 그 일을 맡겠다고 나섰다. 이 같은 시도가 신명 나는 ‘집단지성의 놀이터’를 완성시킬 수 있을지, 어떤 장벽도 없이 그저 순수하게 인류 지식 발전에 기여하고자 하는 이들을 불러 모아 한층 진화된 검색엔진 구축에 성공할 수 있을지 기대를 모은다.
장석진 삼성전자 소프트웨어센터 책임은 “케이샵 프로젝트를 통해 삼성전자 오픈소스 소프트웨어의 역량을 높여 종국엔 삼성전자 기기와 서비스의 차별성이 확보되길 기대한다”고 말했다. “케이샵 프로젝트에 참여하면 국내외 개발자 누구나 삼성전자가 공개하는 오픈소스를 활용, 자신만의 지식그래프를 만들 수 있습니다. 동시에 개발자들의 손을 거친 새로운 소프트웨어 소스가 다시 우리 커뮤니티에 공유되겠죠. 이런 과정이 거듭된다면 삼성 기술을 기반으로 한 소프트웨어의 외연은 한층 넓어질 겁니다.”
삼성전자 뉴스룸의 직접 제작한 기사와 이미지는 누구나 자유롭게 사용하실 수 있습니다.
그러나 삼성전자 뉴스룸이 제공받은 일부 기사와 이미지는 사용에 제한이 있습니다.
<삼성전자 뉴스룸 콘텐츠 이용에 대한 안내 바로가기>