구글 딥마인드가 개발한 인공지능 바둑프로그램 알파고가 이세돌과의 대국에서 세경기 연속 불계승을 거두면서 SNS에서는 이제 인류의 시대가 끝난 것 아닌가 하는 불안을 표출하고 있습니다.

  결론을 먼저 말씀드리자면, 그럴 필요가 없다고 말씀드리고 싶습니다.

  IBM의 인공지능 체스프로그램 딥블루와 디퍼블루가 이미 체스계를 평정한 적이 있지만, 바둑의 경우 그 경우의 수가 체스에 비해 비교할 수 없을만큼 다양한 수준이라 인공지능이 바둑을 넘는 순간, 인류의 미래는 위협당할 것이라는 중론이 마치 사실인것 마냥 인간계를 지배해왔습니다.


  알파고는 CPU 1202개와 함께 nVidia의 GPU 176개를 사용하여 경우의 수를 계산하며, 세가지의 인공지능 구조를 사용하여 학습하며 사고합니다. 19*19개의 2차원배열 위에 검은 돌과 흰 돌 두가지를 이용하여 집을 짓고 상대보다 많은 영역을 차지해야 이길 수 있는 바둑은 (19*19)!=361!로 계산하기 어렵습니다. 돌을 둔 곳에 다시 둘 수도 있고, 400~500수까지 착수 할 수 있다는 점에서는 생각해야 할 경우의 수가 더욱 증가하기에 이러한 괴물같은 연산능력에 대해 우려를 가질 수 있습니다.

  우리는 바둑을 둘 때, 361개의 점에 대해 모든 경우의 수를 생각하는 것이 아니므로 이런 접근방식은 잘못된 것입니다. 단순한 연산능력을 넘어 인간의 직관과 사고능력을 학습하기 위한 것입니다. 바둑은 흔히 교본이라는 것이 존재하여 세력을 구축하고 게임을 이기기 위한 일정한 루트와 방식이 있습니다. 상대의 능력을 불문하고 늘 아슬아슬한 승리를 거두는 이창호 9단의 리즈시절을 보더라도 상대가 어떻게 움직이던지 침착하게 자신의 게임을 만들어 나가면서 확실한 끝내기를 한다면 질 수 없는 게임을 만들 수 있다는 것입니다.

  그러므로 알파고는 가능한 모든 경우의 수를 탐색하는 brute force 방식이 아닌 경우의 수를 줄이면서 적당한 깊이에서 사고를 중지하는 모델을 사용합니다. 유불리를 따지면서 경우의 수를 계산하기 보다 이길 수 있는 확률을 높이는 식으로 사고하고 행동하는 것입니다.

  알파고의 학습능력은 인간을 훨씬 뛰어넘습니다. 인간이 평생을 학습해도 할 수 없는 16만개의 기보를 습득하면서, 특정 상황에서 가장 많이 두는 수들을 학습하고, 승리 확률을 높이는 방식으로 학습합니다. 또한, 다음 수를 예측하는 과정에서 이 수에 대한 다양한 경우의 수를 계산하고, 승리확률을 높일 수 있는 수를 끊임없이 계산합니다. 

  정리하자면, 기존의 기보를 학습하면서 재학습을 실시하여 최적의 수를 두는 법을 학습하고, 실전에 들어가면서 경우의 수를 줄이면서 큰 그림을 그려 확률을 높여가는 싸움을 하는 것입니다. 이러한 탐색기법을 몬테카를로 탐색트리 기법이라고 하며, 자세한 내용은 링크(http://www.aistudy.co.kr/physics/monte_carlo_method.htm)에서 확인하시기 바랍니다.


  초기 구글 딥마인드의 브레이크아웃 학습과정과 코드는 아래 링크로 확인하실 수 있습니다. 딥마인드는 학습모델에 목표를 단순히 높은 점수를 획득하라는 것이었으며, 아무 것도 가르쳐주지 않습니다. 모델이 스스로 점수를 획득하는 법과 빠른시간에 많은 점수를 획득하는 법에 대해 우연히 획득하게 되는 것입니다.


(link:https://github.com/spragunr/deep_q_rl)

  저는 바알못이라 바둑에 대한 자세한 수싸움이나 이런 점을 설명하기엔 부족하고, 지난 해 개봉한 어벤져스와 이번 알파고와 이세돌의 대국에 대해 비교해보는 시간을 가지려 합니다.



  어벤져스:에이지 오브 울트론은 토니스타크와 배너박사에 의해 발견된 마인드스톰의 인공지능이 울트론을 만들고 울트론이 학습과정에서 다양한 자료수집을 통해 인류가(정확히는 어벤져스가) 자연생태계의 적임을 판단하고 이를 죽이려 들면서 발생하는 이야기입니다.

  처음 마인드스톰의 내부 알고리즘이 토니스타크가 설계한 자비스에 비해 월등히 뛰어나다는 점을 파악하고, 연구를 진행합니다. 애초 인간을 이롭게 하기 위해 만든 울트론이라는 인공지능은 자신의 관리자를 파괴하고, 자신의 설계자를 죽이기 위해 힘쓰면서 자신은 인간이 혹은 절대자가 되기 위해 노력한다는 특징을 가지고 있습니다. 실제 영화에서 피노키오의 ost를 활용하는가 하면 관련 유머를 던지면서 이를 염두에 두고 있음을 보여주고 있습니다.


  알파고와 울트론의 학습알고리즘은 증명하기는 어렵지만, 다르다고 볼 수 있습니다. 알파고의 학습법은 엄청난 경우의 수에서 효과적으로 판세를 예측하여 승리할 수 있는 확률을 증가시켜 흔히 말하는 인간의 직관을 따라하기 위한 과정이라면, 울트론은 단순히 정보를 수집하고 재생산 없이 로데이터를 그대로 학습한 결과라는 것입니다.

  이렇게 말하면 토니스타크의 자비스 설계과정에 매우 많은 문제가 있으며, 이 사람이 통계에 대한 기본적인 지식조차 갖추지 못한 통알못이라고 할 수 있습니다. 하지만 자비스를 설계한 토니스타크의 능력에 비추어 봤을 때 울트론은 학습 중 하이드라 혹은 다른 외부세력의 알고리즘 수정으로 잘못된 학습을 수행했을 가능성이 있습니다.

  자비스의 AI와 비브라늄 몸체, 마인드 스톤, 묠니르를 들 수 있는 고결함 까지 갖춘 비전은 차기작에서 밸런스 붕괴의 위험을 가진 초월적인 존재로 인식되었지만, 이번에 공개된 캡틴아메리카:시빌워의 2차 트레일러에서는 스칼렛 위치에게 파괴 직전까지 당도하는 약한 기계의 모습을 보여주었습니다.



  여튼 울트론과 울트론이 될 뻔했지만 마인드스톰을 얻게 되면서 고결함을 얻게된 밸붕 비전은 인공지능의 학습과정에서 중요한 원리를 전제하고 학습하지 않으면 위험한 결과를 초래할 수 있다는 사실을 말합니다.

  유명한 미국의 아이작 아시모프가 언급한 로봇 3원칙이 바로 그러한 점을 보여줍니다.

  1. 로봇은 인간에 해를 가하거나, 혹은 행동을 하지 않음으로써 인간에게 해가 가도록 해서는 안된다.

  2. 로봇은 인간이 내리는 명령들에 복종해야만 하며, 단 이러한 명령들이 첫 번째 원칙에 위배될 때에는 예외로 한다,

  3. 로봇은 자신의 존재를 보호해야만 하며, 단 그러한 보호가 첫 번째와 두 번째 법칙에 위배될 때에는 예외로 한다,


  물론 이 로봇 3원칙도 그 인간의 상대가 누구이냐에 따라(히믈러라던지..) 많은 논란을 내포하고 있습니다. 그럼에도 로봇은 인간의 생존을 위협하지 않는 범위내에서 인간에 편리하게하며 튼튼한 내구성을 가지고 있어야 한다는 특성을 가지고 있습니다.


  1997년 딥블루로 체스를 평정하고, 2016년 알파고로 바둑을 평정한 뒤, 다음 분야로 스타크래프트가 고려되고 있는 만큼 첨단기술과 인류대표 대한민국의 싸움은 계속 될 것입니다.


  다만, 이런 인류대표급의 사고체계를 가지고도 인공지능을 만들어내지 못하는 대한민국의 기술체계에 앞날이 밝지 않다는 점이 매우 아쉽습니다. 작년 중국이 달 착륙에 성공하면서 달탐사 프로젝트에 100억원을 투자하고, 알파고가 이세돌과 대국을 벌이면서 300억원을 투자하겠다고 밝힌 상황입니다.

  물론 아무런 투자를 하지 않는 것보다야 나은 결정이긴 하겠습니다만 대학이 취업사관학교가 되고, 기초과학에는 인색하면서 당장 돈이 되는 공학과 의학에만 관심을 가지는 상황에서 이런 돈을 투자하는 것 자체가 의미없는 헛돈이라는 것입니다,

  대학은 기초과학에 대한 관심을 더욱 가지면서 정부차원의 지속적인 투자가 이루어져야 세계적인 수준으로 기술을 향상시킬 수 있을 것입니다.

  경제적 위기라면서 경제는 좋다고 하는 정부에 정말 필요한 것은 상황을 정확히 판단하고 정책을 실행할 인공지능이 아닐까요?

+ Recent posts