인간의 지식 없이 인간을 뛰어넘다! 돌아온 ‘알파고 제로’

2017/11/30 by 감동근

세상을 잇(IT)는 이야기 / 인간의 지식 없이 인간을 뛰어넘다! 돌아온 '알파고 제로' / "IT 산업의 현주소를 읽다!" 급변하는 IT분야에선 매일 같이 새로운 아이디어와 기술을 선보이고 있습니다. IT 트렌드와 업계 흐름을 읽고 가치 있는 정보를 선별할 수 있는 시야가 필요한 이유죠. 각 분야 전문가들이 날카로운 통찰로 풀어낼 'IT 산업의 현주소와 미래', 삼성전자 뉴스룸의 기획 연재 '세상을 잇(IT)는 이야기'를 통해 만나보세요!

인공지능은 아직 인간의 사고 수준에 미치지 못한다는 평가가 일반적이던 때, 우리는 이런 선입견을 단숨에 깨는 충격적인 사건을 목격했다. 2016년 3월, 구글의 자회사인 딥마인(DeepMind)가 만든 인공지능 바둑 컴퓨터 ‘알파고(AlphaGo, 이하 ‘알파고’)’와 이세돌 9단의 대결이었다. 세기의 대국 이후 세간의 인식이 바뀌기 시작했고, ‘알파고’는 인공지능의 대명사처럼 불릴 만큼 화제가 됐다. 그리고 지난 5월 알파고는 ‘바둑의 미래 서밋(Future of Go Summit)’에서 세계랭킹 1위 커제 9단을 상대로 3:0의 압승을 거둔 뒤 홀연히 바둑계를 은퇴했다. 그러면서 알파고끼리 둔 바둑의 기보 50건이 공개 되었는데, 이를 접한 송태곤 9단은 “무협지에서 절세 은둔 고수의 비급을 얻긴 했는데 도와주는 이 없이 따라하다가 주화입마(走火入魔)[1]에 걸리는 느낌”이라며 큰 충격을 토로한 바 있다. 이처럼 세상과 바둑계에 큰 충격을 남기고 모습을 감추었던 알파고가, 더 강력해진 ‘알파고 제로’로 돌아왔다.

인간의 지식 없이 ‘제로’부터 시작하는 ‘알파고’의 진화

알파고 제로가 자체 학습만으로 기존 알파고를 뛰어 넘었다

지난 10월 19일, 구글 딥마인드는 과학 전문 주간지 <네이처>에 게재한 논문 ‘인간 지식 없이 바둑을 마스터하기’를 통해 ‘알파고 제로’가 기존의 바둑 기보를 전혀 학습하지 않은 채 자체적인 강화 학습만으로 기존의 알파고를 뛰어넘었다고 발표했다. ‘제로’라는 이름은 인간의 기보 없이 ‘제로 베이스(Zero-base)에서 시작했다는 의미일 것이다. 딥마인드가 ‘빈 서판(tabula rasa)[2]’에 비유하기도 한 알파고 제로는 이전 버전과 세 가지 차이점이 있다.

알파고 제로는 기존 알파고 제로와 차이가 있다 첫째, 정책망과 가치망을 하나의 신경망으로 통합했다. 둘째, 신경망에 별도의 사전 정보를 입력하지 않고 롤아웃 기능을 제거하여 CPU 자원 사용을 다폭 줄였다 마지막으로 알파고 제로의 특징은 인간의 기보를 참고하지 않았다는 것

첫째, 경우의 수를 줄여주는 ‘정책망’과 그 안에서 최적의 수를 찾아주는 ‘가치망’을 따로 활용했던 기존의 알파고와 달리, 알파고 제로는 이를 하나의 신경망으로 구현했다. 다음 수를 예측하는 정확도는 다소 낮아졌지만, 같은 시간 내 추론 능력이 두 배 이상 증가했다. 결과적으로 승리를 위한 최적의 수를 찾는 ‘트리 탐색(Tree search)’ 능력이 더욱 향상된 것이다. 또한 초창기 딥러닝 기술인 컨볼루션 신경망(Convolutional neural network)가 아니라 최근 마이크로소프트가 개발한 인식 학습 프로그램인 ‘레스넷(ResNet)’을 사용함으로써 성능을 더 끌어올렸다.

알파고 제로의 기력 향상 속도를 나타낸 표 / 알파고 제로의 기력 향상 속도 / 엘로 평점(Eio rating) / 연습 시간 (Trainning time) (h) / 강화 학습 / 지도학습/ 알파고리

둘째, 신경망에 ‘사람이 정의하는 여러 특징(Handcrafted feature)’을 별도로 입력하지 않았다. 이는 기존의 인공지능을 제작할 때 주어지는 일종의 가이드라인을 정하지 않았다는 의미다. 기존의 알파고는 활로의 개수, 축과 축머리 인지 여부 등을 별도로 입력해두었지만, 알파고 제로는 단지 바둑의 기본 법칙만 사용했다. 그리고 대국의 마지막 순간까지 빠르게 시뮬레이션해보는 ‘롤아웃(Roll-out)’ 기능을 제거해 CPU 자원 사용율을 대폭 줄였다. 초기 버전인 ‘알파고 판(판 후위 2단과 대결했던 버전)은 1,202개의 CPU와 176개의 GPU를 사용했고, ‘알파고 리(이세돌 9단과 대결했던 버전)가 1,202개의 CPU와 48개의 TPU를 사용했던 것에 비해, 알파고 제로는 4개의 TPU를 가진 단일 컴퓨터를 이용한다.

알파고 제로는 인간의 기보를 전혀 참고하지 않고 독학으로 이치를 터ㄷ득했다

마지막으로 알파고 제로의 가장 큰 특징은 인간의 기보를 전혀 참고하지 않았다는 점이다. 바둑 규칙만 습득한 후, 자체 대국을 통해 독학으로 바둑의 이치를 터득했다. 불과 36시간 만에 인간의 기보를 학습한 버전을 추월했고, 3일 만에 알파고 리의 수준[3]에 도달했다. 그리고 약 한 달 뒤. 기존의 인공지능 바둑왕인 ‘알파고 마스터(커제 9단과 대결했던 버전)’를 넘어, 5천 점이 넘는 엘로(Elo) 점수[4]를 획득했다. 무(無)에서 출발한 덕분에 인간의 선입견과 한계로부터 자유를 얻은 것일까? 강화 학습만으로 지도 학습의 성과를 능가할 가능성은 모두가 알고 있었지만, 그것을 실제로 성공시켰다는 점에서, 알파고 제로보다 딥마인드 팀의 기술력 자체가 더 대단하다고 할 수 있다.

알파고가 성장하는 과정에서 보여둔 바둑 기보

스스로 학습하는 ‘알파고 제로’의 의미

알파고의 성장은 마치 바둑 입문자가 전문가가 되는 과정을 압축하여 보는 것과 같다

‘알파고 제로’의 성장 과정은 마치 바둑 입문자가 9단의 전문가가 되어가는 과정을 압축해서 보는 것 같다. 바둑에 갓 입문한 초심자들의 바둑에서는 돌과 돌이 무작정 맞부딪힌다. 넓은 곳이 있음에도, 좁은 곳에서 상대의 돌 몇 개를 잡기 위해 진흙탕 싸움을 벌인다. 알파고 제로도 학습 초기 단계(3시간이 지난 시점)에서는 이런 식으로 바둑을 두었다. 이후 19시간이 지난 시점부터 사활, 집, 세력과 같은 의미를 깨우치기 시작했다. 그리고 70시간이 지났을 때는 동시다발적인 전투나 복잡한 패싸움을 거치고 나서도 여전히 균형 잡힌 형세를 유지할 수 있게 되었다. 그렇게 한 달 만에 알파고 제로는 세계 최고의 바둑 기사가 되었다.

사람들은 강화학습 만으로 개발된 인공지능이 인간과 전혀 다른 바둑을 둘지도 모른다고 생각했지만 알파고 제로의 성장 과정은 인간이 지난 2500년간 찾아낸 바둑의 수법들이 아주 허황된 것이 아니었음을 보여주었다

알파고 제로는 때때로 사람처럼 자신만의 독특한 수법을 개발하는 한편, 사람이라면 바둑에 입문하자마자 배우는 축 개념을 학습이 꽤 진행된 다음에 발견하기도 했다. 그래서 사람들은 강화 학습만으로 개발된 인공지능이 인간과 전혀 다른 바둑을 둘지도 모른다고 생각했지만, 알파고 제로는 인간이 지난 2,500년간 찾아낸 바둑의 수법들이 아주 허황된 것이 아니었음을 보여주었다.

누군가는 그저 바둑 몇 판을 이기는 것이 뭐 그리 대단한 일이냐고 말할 수도 있다. 하지만 딥 마인드가 알파고를 만드는 목적은 그저 바둑을 잘 두는 인공지능을 만드는 것에 있지 않다. 사실 딥마인드가 결국은 인간의 기보를 참고하지 않는 알파고를 개발하리라는 것은 어느 정도 예상된 일이었다. 결국 그들은 IT 환경에서 범용적으로 적용되는 인공지능을 만드는 것이 목적이니까. 그리고 인간의 도움 없이 스스로 학습하는 법을 배운 ‘알파고 제로’는 결국 인공지능의 다음 세대를 향한 첫걸음이 될 것이다.

※이 칼럼은 해당 필진의 개인적 소견이며 삼성전자의 입장이나 전략을 담고 있지 않습니다.

[1]주로 무협 소설에서 사용되는 용어로, 기의 운용을 잘못하여 몸에 문제가 생긴다는 뜻이다. ‘무리한 상태를 지속하여 큰 충격을 받은 상태’ 또는 ‘일정한 수준을 넘어 도가 지나친 상태’를 나타낼 때 사용된다.
[2] 타불라 라사(Tabula rasa). 라틴어로 ‘깨끗한 서판’이라는 의미. 인식론에서는 사람이 태어날 때는 정신적으로 ‘빈’ 백지와 같은 상태로 태어나며, 출생 이후 감각적인 지각 활동과 경험에 의해 서서히 ‘마음’이 형성되어 전체적인 지적 능력이 형성된다는 의미로 사용된다.
[3] 이 이야기 이면에는 무수히 많은 시행착오가 숨어 있다. 알파고 제로는 대국 시 단일 머신(4 TPU)을 사용했지만, 학습 시에는 64개의 GPU와 19개의 CPU를 사용했다. 이마저도 하나의 실험 환경에서 사용된 컴퓨팅 자원이다. 조작변인을 조금씩 바꿔가며 수백 가지 실험을 수행하기 위해서는 어마어마한 컴퓨팅 자원과 인력이 동원된다. 그렇게 시험을 거쳐도 최적의 인자(parameter)를 찾는데 수개월이 필요하다.
[4] 체스나 바둑에서 실력을 수치화한 점수. 두 사람의 점수 차가 200점, 366점, 677점의 차이가 난다면, 점수가 높은 쪽이 이길 확률은 각각 75%, 90% 99%이다.