프라그마틱 슬롯사이트모델 드리머는 한 대 GPU로 개발해서 구동됐지만, 스스로 학습해 게임 속 다이아를 채굴해냈다.
![구글 딥마인드와 토론토대가 개발한 프라그마틱 슬롯사이트모델은 자체적으로 마인크래프트 다이아를 채굴하는 데 성공했다. [사진=챗GPT]](https://cdn.fortunekorea.co.kr/news/photo/202504/47567_40600_579.png)
인공지능(프라그마틱 슬롯사이트) 모델이인간 데이터나 특별한 학습 단계 없이 인기 게임 '마인크래프트'에서 세계 최초로 다이아몬드를 채굴하는 데 성공했다.
지난 2일(현지 시간) 구글 딥마인드와 토론토대 공동 연구팀이 개발한프라그마틱 슬롯사이트모델'드리머V3(Dreamer V3)'가 마인크래프트 세계에서 약1억 회의상호작용을거쳐 스스로 다이아몬드를 획득했다. 게임 시간으로 약 100일에 해당하는 시간이 걸렸다. 연구팀은 "드리머V3가 고정된 설정값을 사용해 다양한 환경에서 전문 알고리즘들을 능가하는 성능을 보였다"고 밝혔다.
세 개의 신경망으로 환경 학습하고 미래 예측
드리머V3는 세 개의 신경망을 통해 환경을 인식하고 행동을 결정한다. 먼저 '월드 모델'이라는 신경망은 게임 화면을 관찰하고 이를 요약된 정보로 압축한다. 이를 바탕으로 특정 행동을 했을 때 미래에 벌어질 일을 예측하는 능력을 갖는다.
두 번째 '비평가 신경망'은 각 상황의 가치를 평가한다. 어떤 상황이 목표 달성에 유리한지, 특정 행동이 얼마나 좋은 결과를 가져올지 판단하는 역할이다. 세 번째 '행동 신경망'은 이 평가를 바탕으로 실제 게임에서 어떤 버튼을 누를지 결정한다.
이 세 신경망이 서로 정보를 주고받으며 학습하는 과정에서 드리머V3는 마인크래프트라는 복잡한 세계를 이해하고 목표를 달성하게 된다. 연구를 이끈 다니자르 하프너 구글 딥마인드 연구원은"광범위한 도메인에서 고정된 하이퍼파라미터로 강화학습을 적용할 수 있는 일반 알고리즘을 개발했다"고 설명했다.
왜 마인크래프트가 프라그마틱 슬롯사이트에게 어려운 과제인가
마인크래프트는 매번 새롭게 생성되는 무한한 3D 세계에서 플레이어가 자유롭게 탐험하고 건설하는 게임이다. 이 게임에서 다이아몬드를 획득하려면 단순한 행동을반복해서는 얻기 어렵다.장기적인 계획 수립과, 자원 수집, 도구 제작, 탐험 등 복잡한 과정을 거쳐야 한다.
프라그마틱 슬롯사이트 연구자들이 마인크래프트를 어려운 도전 과제로 보는 이유는 크게 세 가지다. 첫째, 게임에서 얻는 보상이 매우 드물다. 다이아몬드 채굴까지 12단계의 이정표를 거쳐야 하지만, 각 단계 사이에는 명확한 지침이나 즉각적인 보상이 없다.
둘째, 게임 세계가 넓고 무작위로 생성돼탐색이 어렵다. 다이아몬드는 지하 깊은 곳에 희귀하게 존재하기 때문에 무작정 움직이는 것으로는 찾기 어렵다. 셋째, 최종 목표까지 도달하는 데 필요한 시간이 길다. 하나의 행동과 최종 보상 사이의 시간 간격이 커서 프라그마틱 슬롯사이트가 어떤 행동이 좋은 결과로 이어지는지 파악하기 어렵다.
자료에 따르면 숙련된 인간 플레이어는 다이아몬드를 얻는 데 약 20분이 소요된다. 드리머V3는 한 번의 게임 세션 동안 최대 3만 6000단계의 상호작용을수행할 수 있다. 약 30분 동안 게임을 지속할 수 있는 것이다.프라그마틱 슬롯사이트는 과제를 수행하기 위해 제한시간 안에 자원을 수집하고 도구를 제작하며 다이아몬드를 찾아야 했다.
어려운 난관을 해결한 핵심 기술
연구팀이 드리머V3의 성능을 높이기 위해 도입한 핵심 기술 중 하나는 '심로그(symlog)' 변환이다. 이는 게임에서 얻는 정보와 보상의 크기가 환경마다 크게 다를 때 이를 일관되게 처리할 수 있게 해준다.
심로그 함수는 큰 양수와 음수 값의 크기를 압축하는 역할을 한다. 이 함수는 원점 주변에서는 입력값을 거의 그대로 유지하기 때문에 작은 목표값의 학습에는 영향을 미치지 않는다. 이를 통해 프라그마틱 슬롯사이트가 다양한 환경에서도 일관된 방식으로 학습할 수 있게 된다.
또 다른 중요한 기술은 '백분위수 기반 수익 정규화'다. 이는 프라그마틱 슬롯사이트가 게임에서 얻을 수 있는 보상이 적을 때는 더 적극적으로 탐색하고, 보상이 많을 때는 확실한 전략에 집중하도록 돕는다. 연구팀은 이 기술이 희소한 보상 상황에서도 프라그마틱 슬롯사이트가 효과적으로 학습할 수 있게 했다고 설명했다.
드리머V3의 주목할 만한 점은 상대적으로 적은 컴퓨팅 자원으로 높은 성능을 달성했다는 것이다. 개발팀은 단 하나의 엔비디아 A100 GPU를 사용해 9일간의 학습만으로 마인크래프트 다이아몬드 채굴에 성공했다.
이는 이전 연구에서720개의 GPU를 9일 동안 사용한 것과 비교하면 효율적이다. 당시 운영한 프라그마틱 슬롯사이트 모델은 인간 플레이어의 마인크래프트 게임 영상을 학습한 후에야 다이아몬드 채굴과제를 해결할 수 있었다.
연구에 참여한 티모시 릴리크랩 구글 딥마인드 연구원은"드리머V3는 인간 데이터 없이도 복잡한 과제를 해결할 수 있음을 보여주며, 인터넷 영상에서 세계 지식을 학습하고 도메인 간에 단일 모델을 학습하는 미래 연구 방향을 열었다"고 밝혔다.
이번 연구는학술지 '네이처(Nature)'에 2일 게재됐다.
/육지훈 기자 editor@popsci.co.kr