IT용어위키

MuZero(인공지능)은 DeepMind에서 개발한 강화학습 기반의 모델 기반 계획 알고리즘이다.

개요

MuZero는 AlphaZero의 후속 알고리즘으로, 게임의 규칙(환경의 동역학)을 사전에 알지 못해도 학습을 통해 규칙을 모델링하고 이를 기반으로 트리 탐색을 통해 계획을 세워 초인적 성능을 달성하는 능력을 지닌다.^[1]

MuZero는 기존 AlphaGo, AlphaGo Zero, AlphaZero에서 사용되던 환경의 완전한 시뮬레이터나 규칙 기반 지식 없이도 작동한다. 기본적으로 다음 세 가지 핵심 요소를 학습한다^[2]^[3]:

이 모델 기반 예측을 활용하여 Monte-Carlo 트리 탐색(MCTS)을 수행한다.

MuZero는 다음과 같은 영역에서 뛰어난 성능을 보였다:

체스, 장기, 바둑: 사전 규칙 없이도 AlphaZero와 같은 수준의 초인적 성능 도달^[4]
57종의 아타리 Atari 게임: 복잡한 시각 환경에서도 새로운 최첨단 성능 기록^[5]
Reddit 사용자들의 언급에 따르면: “MuZero slightly exceeded the performance of AlphaZero despite using less overall computation”^[6]

MuZero는 내부적으로 다음 세 가지 신경망 모듈로 구성된다^[7]:

이 구조를 기반으로 MCTS를 수행하며, 환경의 동역학을 학습해 계획을 세운다.

DeepMind는 MuZero의 기술을 이미 영상 압축, 데이터센터 최적화, 칩 설계 등 실제 시스템에 적용 중이다^[8]^[9]^[10].

높은 샘플 효율성을 갖춘 EfficientZero 알고리즘은 MuZero 기반으로 Atari에서 제한된 데이터만으로도 인간 이상의 퍼포먼스를 보여주었음^[11]
Sampled MuZero는 연속적이고 고차원적인 행동 공간에서 실행 가능하도록 확장된 변형으로 실세계 제어 도메인에도 적용 가능^[12]

MuZero는 환경의 규칙이 명시적이지 않아도 학습을 통해 환경을 모델링하고 전략적 계획을 수행할 수 있다는 점에서 기존 강화학습 및 계획 알고리즘 구조에 있어 혁신적인 진전으로 평가된다^[13]^[14].

Julián Schrittwieser 외, “Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model”, *Nature*, 2019
David Silver 외, Wired, “What AlphaGo Can Teach Us About How People Learn” 인터뷰
DeepMind 블로그, “MuZero’s first step from research into the real world”