[카카오AI리포트 프리뷰] 무적 온라인바카라 만든 비결은?

온라인바카라의 비밀, '강화 학습'에 대해 알아보자

‘인공지능’ 알파고는 2016년 이세돌 9단과의 대국을 4승 1패로 승리한 데 이어 2017년 중국 커제 9단을 3전 전승으로 이겼습니다. 알파고는 어떤 학습 방식을 거쳐 천하무적이 될 수 있었을까요? 바둑으로 온라인바카라 이길 더 강한 인공지능이 나올까요? 2017년 6월 23일 발간되는 ‘카카오 AI 리포트' 6월호(vol.4)에서는 ‘알파고’의 비밀을 밝혀보려 합니다. 이번 브런치 글에서는 서울대학교 CPS연구소(Cyber-Physical Systems Laboratory) 박사 과정인 최성준 님이 온라인바카라 무적으로 만든 ‘강화학습’에 대해 일반 독자들 눈높이에서 간략히 설명해 드립니다. 더욱 자세한 내용은 ‘카카오 AI 리포트’ 6월호에 실릴 예정입니다.

그림 1. 커제와 온라인바카라의 대국 장면(*)

'온라인바카라의 비밀, 강화학습에 대해 알아보자'

최성준서울대학교 CPS연구소(Cyber-Physical Systems Laboratory) 박사 과정

제가 학부를 졸업하고 대학원 세부 전공을 탐색하던 2010년, 전기컴퓨터공학을 전공하는 학부생과 대학원생 사이에서는 앤드류 응(Andrew Ng) 교수님이 스탠퍼드 대학에서 연구했던 기계온라인바카라(machine learning) 수업[1]을 공부하는 것이 유행이었습니다. 당시 학교 컴퓨터실에서도 항상 몇몇 학생들이 이 수업을 듣고 있을 정도로 인기가 높았습니다. 저 역시 이 수업을 들으며 기계온라인바카라이라는, 당시는 조금 생소했던 이 분야를 공부해보면 무척 재밌겠다는 막연한 생각을 갖고 있었습니다.

당시 응 교수님은 앳되고 어수룩한 모습으로 칠판에 수식을 잔뜩 적으며 열정적으로 수업을 하셨던 기억이 납니다.당시 기계 온라인바카라을 크게 세 가지로 구분하였는데, 지도 온라인바카라(supervised learning), 비지도온라인바카라(unsupervised learning) 그리고 강화 온라인바카라(reinforcement learning)이었습니다. 앞의 두 가지는 어떤 것인지 이해가 되었던 것 같은데, 강화 온라인바카라만큼은 직관적인 이해가 잘 되지 않았습니다. 당시에는 제가 강화온라인바카라 문제를 지금처럼 심도 있게 다룰지 전혀 몰랐었지요.

7년 뒤인 2017년 6월 지금 제가 연구하는 분야인 강화학습이란 단어는 인공지능에 관심이 있는 사람들은 대부분 한 번쯤 들어봤을 법한 단어가 되었습니다. 이 모든 것은 온라인바카라 덕분이 아닐 수 없습니다(고맙다 온라인바카라!).

온라인바카라 학습 알고리즘은 ‘몬테카를로 트리 탐색’
인공지능 강화온라인바카라 연구도 ‘온고지신’에서 출발
‘보상 함수’는 강화온라인바카라의 가장 큰 장점이자 단점

흔히 온라인바카라가 바둑을 학습해 온 방법을 강화학습으로 규정하기도 하지만, 엄밀히 말하자면 온라인바카라에 사용된 방법은 일반적으로 사용되는 강화학습으로 보기는 힘듭니다. ‘카카오 AI 리포트’ 6월호(vol.4)에서 더욱 자세히 설명하겠지만, 온라인바카라의 학습 알고리즘은 ‘몬테카를로 트리 탐색(Monte Carlo Tree Search, MCTS)’ 방식으로, 바둑이나 체스와 같이 두 명이 번갈아가면서 플레이하는 게임에 최적화된 학습 알고리즘입니다. MCTS 방법 중 강화학습과 '비슷'한 부분이 있긴 합니다. 딸기맛 우유에 딸기가 아닌 딸기향 착신료가 들어가는 것과 같다고 할까요?

제가 카카오 AI 온라인바카라 6월호에서 다룰 강화학습 관련 주제들은 다음과 같습니다.

1. 우선, 강화 온라인바카라 학문의 근간이 되는 마코프 디시젼 프로세스(Markov Decision Process, MDP)와 MDP 문제를 해결하기 위해 사용하는 벨만 이퀘이션(Bellman equation)을 소개드립니다. MDP를 풀기 위한 몇 가지 알고리즘들과 현재의 딥마인드를 있게 한 DQN(Deep Q-network)까지의 흐름도 곁들일 예정입니다. 온고지신이라 하지 않았나요. 인공지능 공부에서도 이 분야(강화온라인바카라) 고전을 알아두면 큰 도움이 된답니다.

2. 두 번째로, 인공지능 분야 연구 최전선(front line)에서 현재 연구가 이뤄지고 있는 강화학습 방법론들을 소개합니다. 온라인바카라는 지난 해 이세돌에 이어 현재 세계 랭킹 1위인[2] 중국의 커제를 3전 전승으로 물리쳤습니다. 새로운 온라인바카라에 탑재된 알고리즘은 아직 공개되지 않았지만, 이세돌과 대국한 온라인바카라에 탑재된 학습 알고리즘인 몬테카를로 트리 탐색(Monte Carlo Tree Search, MCTS)을 소개합니다. 그리고 폴리시 그래디언트(policy gradient)에 속하는 강화 학습 방법론들도 함께 알아볼 예정입니다.

3. 마지막으로, 기존 강화온라인바카라의 한계점과 이를 극복하기 위한 방법론들, 그중에서도 모방온라인바카라과 결합하는 연구들에 대해서 살펴볼 것입니다. 강화 온라인바카라의 장점이자 단점은 바로 보상 함수입니다. 우리가 어떻게 하는 것이 좋다는 것을 기술하는 보상 함수만 주어지면, 이를 최적화하는 동작을 찾을 수 있다는 점이 강화 온라인바카라의 가장 큰 장점이지만, 새로운 문제에 대한 '적절한' 보상 함수를 설계하는 것은 생각보다 어려운 일입니다.

‘온라인바카라’를 만들어낸 ‘강화학습’의 비밀! 오는 6월 23일 발행될 카카오 AI 리포트 제4호(vol.4)에서 저와 함께 그 비밀을 풀어보시길 바랍니다.

*참고 문헌 및 참고 이미지

[그림] 출처|https://deepmind.com/research/alphago/alphago-china/

[1] 출처 | https://www.youtube.com/watch?v=UzxYlbK2c7E

[2] 참고 |https://www.goratings.org/en/

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari

brunch

[카카오AI리포트 프리뷰] 무적 온라인바카라 만든 비결은?

'온라인바카라의 비밀, 강화학습에 대해 알아보자'