“AI 시장 뒤흔들 혁명” VS “한낱 찻잔 속 태풍”… 딥러닝의 실체는?

2018/08/30 by 조성배

인공지능 분야에서 딥러닝의 등장은 종종 ‘혁명(revolution)’에 비견된다. 최근 회자되는 인공지능의 대부분이 딥러닝과 동의어처럼 사용될 정도다.

딥러닝의 강점은 영상인식과 언어처리 분야에 있다. 하지만 몇 가지 구조를 복합적으로 쓰면 영상의 의미를 문장으로 설명하거나 문장 입력만으로 영상을 생성하는 등의 ‘응용’도 가능하다

딥러닝이 진가를 발휘하는 영역은 영상인식, 그리고 언어처리 쪽이지만 몇 가지 딥러닝 구조를 복합적으로 사용하면 보다 흥미로운 응용도 가능하다. 이를테면 컨볼루션 신경망[1]과 순환 신경망[2]을 순차적으로 사용, 입력된 영상의 의미를 문장으로 설명하는 식이다. 거꾸로 문장 입력 작업을 통해 해당 내용의 영상을 생성하는 것도 가능하다. 그렇다면 딥러닝은 인공지능의 만능 키(key)일까? 이번 칼럼에선 기본 정의에서부터 성공 요인, 향후 발전 방향에 이르기까지 ‘딥러닝의 모든 것’을 살펴볼 생각이다.

오픈소스 기반… 데이터 충분하면 일정 성능 보장

오차학습

명칭(deep learning)이 주는 선입견 때문일까, ‘딥러닝’이라고 하면 사람들은 꽤 다양한 걸 상상하곤 한다. 하지만 딥러닝은 쉽게 말해 ‘여러 층으로 구성된 신경망 학습 방법’이다. 신경망 학습법은 장단점이 뚜렷하다. 데이터 수집만 원활하면 학습 알고리즘을 통해 해결책을 자동으로 얻어낼 수 있지만, 데이터 양이 늘어날수록 층을 여러 개 쌓아야 하고 그 경우 학습법이 제대로 작동하지 않는단 한계가 있다.

신경망의 층을 여러 개로 늘려 만든 걸 ‘심층신경망(Deep Neural Network, DNN)’이라고 한다. 그리고 딥러닝은 바로 그 가중치를 결정하는 알고리즘이다. 심층신경망은 각 층이 이전 층의 표현을 좀 더 추상화해 변환하도록 기능함으로써 사람의 도움 없이도 적절한 특징을 자동으로 추출한다. 딥러닝엔 몇 가지 방법이 있으며, 그중 대표적이라 할 만한 게 컨볼루션 신경망과 순환 신경망이다. 전자는 영상인식과 같은 정적(靜的) 유형에, 후자는 언어처리와 같은 동적(動的) 유형에 각각 적합하다.

딥러닝은 ‘여러 층으로 구성된 신경망 학습법’이다. 데이터 수집만 원활하면 해결책을 자동으로 도출할 수 있지만 데이터 양이 늘수록 층을 여럿 쌓아야 해 학습법이 제대로 작동하지 않는다

오픈소스[3]정신에 기반한 학습법이어서일까, 딥러닝의 공유 생태계는 상대적으로 탄탄한 편이다. 데이터만 충분하면 일정 수준 이상의 성능이 보장되는 것이다. 딥러닝의 성공 비결은 크게 세 가지로 요약할 수 있다. 첫째, 비(非)지도학습[4]에 의한 사전 학습이 주효했다. 그중 심층 오토인코더[5]는 입력과 출력이 동일한 신경망을 여러 개의 층으로 쌓은 것이다. 입력과 같은 출력을 내는 신경망의 가중치를 구하는 건 그리 의미가 없어 보이지만 여기선 데이터의 특징을 추출하는 효과를 기대할 수 있다.

둘째, 컨볼루션∙순환 신경망의 발전도 빼놓을 수 없다. 실제로 딥러닝 관련 학계에선 영상 인식 등에 사용되는 컨볼루션 신경망 구조와 학습법이 다양하게 제시되고 있다. 컨볼루션 신경망에선 서로 다른 크기의 컨볼루션 필터를 쌓아올리는 인셉션 모듈(inception module), 혹은 도중에 한 층 건너 뛰는 연결선을 도입한 레스넷(ResNet)[6]이 중요하다. 순환 신경망의 경우에도 매핑(mapping) 작업 시 주요 부분을 강조하는 ‘어텐션 메커니즘(attention mechanism)’ 도입이나 ‘인코더-디코더(encoder-decoder)’ 관계로 층을 쌓는 식의 구조가 실제 문제 해결에 큰 역할을 하고 있다.

셋째, GPU[7]병렬 컴퓨팅을 포함한 고성능 컴퓨팅 기술의 등장이다. 당초 GPU는 모든 화소에 동일하게 적용되는 그래픽 연산을 가속시키기 위해 개발된 것. 하지만 이후 딥러닝 학습이나 추론에 매우 효과적인 수단이란 사실이 밝혀졌고 이를 적극 활용한 결과, 오늘날 딥러닝 기술에서 떼려야 뗄 수 없는 존재로 자리 잡았다.

사전학습 인공신경망의 발전 강력한 컴퓨팅 기술 / 데이터를 습득하는 인공지능을 표현

관건은 양질의 데이터 확보… ‘킬러앱’ 개발도 시급

딥러닝 기술 구현에서 가장 중요한 건 양질의 학습 데이터를 얼마나 확보하느냐, 다. 이렇게 볼 때 딥러닝 연구에 활용할 수 있는 방식으론 지도학습∙비지도학습∙강화학습 등이 있다

딥러닝 기술이 유의미한 성과를 거두기 위해 가장 중요한 건 결국 양질의 학습 데이터다. 이렇게 볼 때 딥러닝 연구 방향은 학습에 사용할 수 있는 데이터 특성에 따라 세 가지로 생각해볼 수 있다. 첫째, 레이블(label)된 소수 데이터를 활용한 지도학습(supervised learning) 방식이다. 쉽게 떠올릴 수 있는 방법은 다른 분야에서 이미 다량의 데이터로 학습된 모형을 가져와 활용하는 것이다. 전이학습(transfer learning)이라고도 하는데 이를 발전시키면 풀고자 하는 문제와 관련, △한 번만 학습시켜도 되는 ‘원샷러닝(one-shot learning)’ △전혀 학습시키지 않아도 되는 ‘제로샷러닝(zero-shot learning)’도 가능해진다.

둘째, 레이블되지 않은 데이터를 이용한 비지도학습 방식이다. 레이블된 데이터가 없는 경우, 통계 기법을 활용해 각 층을 개별적으로 학습한 후 하나씩 쌓아 올리게 된다. 연구 초기 등장한 적이 있지만 성능은 아직 기대에 미치지 못해 오히려 들여다볼 여지가 있다. 마지막 방향이 강화학습(reinforcement learning) 방식을 사용하는 것이다. 데이터가 아예 없는 경우 적용 가능하며 일찍이 딥마인드가 심층 강화학습의 유용성을 입증한 바 있다(관련 연구는 좀 더 진척될 필요가 있다).

딥러닝 기술 개발에서 데이터만 많으면 그걸 효과적으로 매핑할 수 있는 함수 생성은 어렵지 않다. 그런 의미에서 일반화 성능을 높이는 생성적 적대 신경망(GAN) 같은 모형이 유망하다

딥러닝의 향후 연구 방향에 대해선 수많은 연구자가 다양한 의견을 피력하고 있다. 한쪽에선 사전에 학습된 모형을 블록 형태로 쌓아 올려 복잡한 심층 모형을 구축하고, 다른 쪽에선 모바일 기기에서도 작동될 수 있도록 개선된 학습 방법 개발에 한창이다. 이 역시 정리하면 크게 세 가지 방향으로 전망해볼 수 있다.

첫째, 정규화를 통해 향상된 일반화 성능을 갖추는 방식이다. 딥러닝 기술 개발과 관련, “데이터만 많으면 그걸 효과적으로 매핑할 수 있는 함수 생성은 어렵지 않다”는 사실이 입증됐다. 따라서 앞으론 주어진 데이터에 지나치게 맞추기보다 일반화 성능을 높이는 모형으로서의 생성적 적대 신경망[8]이 유망해 보인다.

둘째, 학습된 결과를 설명할 수 있는 모형 개발이다. 딥러닝으로 학습된 모형은, 정확도 측면에선 더없이 효과적이지만 어떤 이유로 그런 결과가 나왔는지 시원하게 설명할 수 없는 문제가 늘 발목을 잡았다. 그럴 땐 외장 메모리를 사용한 딥러닝 모형, 이를테면 신경망 튜링 머신(Neural Turing Machine)이나 미분 가능한 신경 컨트롤러(Neural Differential Controller) 등이 유력한 해결책일 수 있다. 아직은 ‘대화 도중 맥락 저장’이나 ‘지하철 최단 경로 탐색’ 등 단순한 문제에 국한돼있지만 궁극적으론 설명 범위가 확장될 수 있으리라 기대를 모은다.

셋째, 역시 ‘킬러앱’[9]을 탄생시키는 것이다. 다만 이제껏 발표된 딥러닝 응용 사례 중 대부분은 킬러앱으로 분류하기엔 여러모로 역부족이다.

인간 수준의 인공지능 구현하려면 ‘딥러닝+α’ 필요

인공지능 60년사를 돌아볼 때 딥러닝만으로 궁극의 인공지능이 실현될 거란 기대는 섣부르다. 이런 상황에서 필요한 건 “서로 달라 배타적인 것처럼 보이는 접근 방식의 합목적적 통합”이다

그렇다면 딥러닝 기술은 앞으로 어떤 방향으로 나아갈까? 일단 시각처리 분야에선 강화학습과 딥러닝이 결합되며 보다 강력한 성능을 낼 수 있다(알파고 때에도 강화학습을 통한 성능 향상 측면에서 큰 효과를 거둔 적이 있다). 언어처리 분야에선 단어나 구, 절을 넘어 문장이나 문서 전체를 이해하는 방식으로의 발전을 기대해봄 직하다.

인간수준의 인공지능에 도달하기 위핸 조건 딥러닝 + 알파

하지만 딥러닝만으로 궁극의 인공지능이 실현될 거란 기대는 섣부르다. 지난 60여 년의 인공지능 역사가 이를 뒷받침한다. 논리추론∙탐색 등 곧 성공할 것 같았던 지식 기반 접근 방식이 벽에 부딪혔던 것처럼 딥러닝처럼 다량의 데이터를 토대로 하는 방식도 머지않아 한계에 직면할 것이다. 결국 ‘인간과 비슷한 수준의 인공지능’이 완성되려면 서로 달라 배타적인 것처럼 보이는 접근 방식의 합목적적 통합이 필요하지 않을까? 요(要)는, ‘꺼진 인공지능 기술도 다시 보자’는 것이다.

※이 칼럼은 해당 필진의 개인적 소견이며 삼성전자의 입장이나 전략을 담고 있지 않습니다

[1]Convolutional Neural Network(CNN). 딥러닝의 기본 구조 중 하나다
[2]Recurrent Neural Network(RNN). 시간 흐름에 따라 변화하는 데이터를 학습하기 위한 딥러닝 모델
[3]open source. 인터넷 등을 통해 소프트웨어의 설계도에 해당하는 소스코드를 무상으로 공개해 누구나 개량, 재배포할 수 있도록 하는 것
[4]unsupervised learning. 인공지능 분야 중 하나인 기계학습의 일종으로 학습용 데이터를 따로 구축하지 않고 데이터 자체를 분석하거나 군집하며 학습하는 방식을 일컫는다. ‘자율학습’이라고도 한다
[5]deep autoencoder. 비지도학습을 기반으로 하는 심층신경망의 일종
[6]컨볼루션 신경망의 최신 구조를 도입한 신경망. 알파고 제로에 사용됐다
[7]Graphics Processing Unit(그래픽 처리 장치)
[8]Generative Adversarial Network(GAN). 진짜 같은 가짜를 생성하는 모델(generator)과 그 진위를 판별하는 모델(discriminator) 간 경쟁을 통해 인공지능이 스스로 답을 찾아가도록 하는 딥러닝 알고리즘
[9]Killer App(lication). 시장에 등장하자마자 경쟁 제품을 몰아내고 시장을 완전히 재편할 정도로 인기를 누리며 투자 비용 대비 수십 배 이상의 수익을 올리는 재화나 서비스