AGI Week 2 - 오셀로를 이용한 AGI 접근법
AGI에서 말하는 '지능'의 개념과 게임에 대한 전략 수립의 관계
이번 시간에는 AGI를 본격적으로 다루기에 앞서, ‘지능’의 개념에 대해 고찰을 해보았습니다. 지능의 정의, 특성, 작동 방식 등을 오셀로라는 게임의 규칙을 분석하고 필승 전략을 수립하면서 자연스럽게 고민하는 시간이었던 것 같습니다.
AGI의 지능을 어떻게 측정해야 하는가
AGI는 말그대로 ‘범용’ 인공지능입니다. 한 가지 task만 수행할 수 있다면 아무리 뛰어나더라도 AGI는 되지 못하죠.
하지만 ‘범용적인 지능’이라는 것은 정의내리기도, 그것을 평가하기도 쉽지 않습니다. 당장 사람만 하더라도 수백년의 시행착오를 걸쳐 정말 다양한 종류의 지능 검사들이 개발되었는데, 말도 통하지 않고 소통이 제한적인 대상의 지능의 범용성을 측정하는 완전 새로운 지표를 만들어내기란 쉽지 않은 일입니다.
지능의 지표로 사용하기에 적합한 것 중 하나가 바로 ‘게임’입니다.
‘게임’과 ‘지능’의 상관관계
게임은 제한된 규칙과 명확한 목표 덕분에 복잡한 지능을 연구하는 이상적인 환경입니다.
- 규칙의 Simplicity, 전략의 Complexity
- 게임은 대부분 그 규칙이 명확합니다. 이를 통해 인공지능과 소통하기 위한 환경(input/output)을 쉽게 정의내릴 수 있습니다.
- 하지만 그 규칙을 기반으로 승리를 하기 위해선, 규칙 아래 숨겨진 복잡한 원리를 이해해야 합니다.
- Measurable Metric:
- 게임은 그 결과가 승패로 깔끔하게 갈립니다. 지표로 사용하기에 완벽합니다.
지능의 다양한 정의와 관점
- Chollet의 지능 측정: 경험과 사전 지식을 새로운 스킬로 전환하는 효율성을 중시합니다.
- Yann LeCun의 자율적 기계 지능: 세계 모델을 구축하고, 계획, 추론, 목표지향적 행동을 수행하는 능력을 강조합니다.
- Brandon Lake의 인간과 유사한 학습: 인과 모델을 기반으로 한 빠르고 유연한 학습 능력이 중요하다고 주장합니다.
이러한 관점들은 게임이라는 제한된 환경에서 조차도 지능이 어떻게 발전할 수 있는지에 대한 단서를 제공합니다.
지능에 맞춘 모델들
실제 AI 시스템들이 어떻게 게임 지능을 구현하고 있는지 살펴보면, 다음과 같은 사례들이 눈에 띕니다.
- AlphaZero: 자기 대국(self-play)과 몬테카를로 트리 탐색(MCTS)를 통해 체스, 쇼기, 바둑 등에서 인간을 능가하는 전략을 스스로 학습합니다.
- Gato: 다중 태스크를 소화하는 범용 에이전트로, 다양한 분야에서 일반화된 성능을 보여줍니다.
- Meta의 Cicero: 외교와 협상이 중요한 Diplomacy 게임에서 인간 수준의 전략적 사고를 입증합니다.
- Google의 Gemini 시리즈: 다양한 태스크에 걸쳐 뛰어난 추론 및 추상화 능력을 보여주는 멀티모달 모델로, AI의 범용적 적용 가능성을 시사합니다.
오델로를 이용한 지능 측정
오델로는 간단한 규칙과 동시에 깊이 있는 전략을 요구하는 게임입니다.
- 명확한 규칙: 8x8 보드 위에서 플레이어들은 번갈아 돌을 놓으며 상대의 돌을 뒤집어 최종적으로 자신의 돌이 다수인 상태를 만드는 게임입니다.
- 전략의 단계: 초보자 수준의 단순한 돌 놓기에서부터, 고급 플레이어가 사용하는 코너 확보, X-스퀘어 회피, 패리티와 템포 관리 등의 전략적 요소로 발전합니다.
- AI 개발 관점: 오델로를 통해 게임의 기본 메커니즘, 패턴 인식, 그리고 경험을 통한 학습이 어떻게 이루어지는지를 확인할 수 있으며, 이는 AI가 실제 세계의 복잡한 문제를 해결하는 데 필요한 전략적 사고와 추론을 구축하는 데 도움이 됩니다.
오델로-AI 설계와 학습 전략
효과적인 오델로 AI를 만들기 위해 고려해야 할 요소들은 다음과 같습니다.
1. 게임 메커니즘에 대한 이해
- 규칙 기반 지식: 코너와 에지의 중요성, 안정적인 돌의 확보, 위험한 위치(X-스퀘어, C-스퀘어) 등.
- 패턴 인식: 오프닝 이론, 중반의 전략적 전개, 그리고 엔드게임 최적화 등.
2. 경험을 통한 학습
- 자기 대국: AlphaZero와 같이 반복적인 자기 대국을 통해 정책 및 가치 네트워크를 업데이트하며 학습.
- 데이터셋 활용: 전문가의 게임 기록이나 다양한 상황에 대한 반응 데이터를 통해 AI의 의사결정 패턴을 다듬습니다.
- 보상 모델링: 단기적 이득과 장기적 전략의 균형을 맞추는 보상 체계를 마련하여, 게임 전체에 걸쳐 일관된 전략을 유지하도록 합니다.
3. 전략적 사고의 깊이
- 탐색의 폭과 깊이: 오프닝, 중반, 엔드게임 각각에 맞는 탐색 전략과 최적의 계산 방법이 필요합니다.
- 메타 전략: 상대방 모델링, 시간 관리, 위험과 보상의 균형 등 게임 전반을 아우르는 고차원 전략이 중요합니다.
LLM(대형 언어 모델)과 오델로
최근 LLM들이 오델로 같은 보드게임을 어떻게 다루는지도 흥미로운 주제입니다.
- Grok 3의 경험: 규칙 설명과 시각적 보드 구현에 뛰어난 모습을 보였으나, 게임 상태 추적에서는 일부 문제를 보였습니다.
- Claude 3.7의 경험: HTML/CSS/JS를 활용한 인터랙티브 게임 환경 구현과 중간 수준의 게임 플레이를 성공적으로 구현해내며, LLM이 게임 인터페이스 및 규칙 이해에 있어서 점차 발전하고 있음을 보여줍니다.
이처럼 LLM은 게임 지능에 필요한 다양한 요소들을 내포하고 있으며, 앞으로 AGI 개발에 중요한 역할을 할 가능성이 큽니다.
게임 지능에서 AGI로
게임 지능 연구는 단순히 한 게임의 마스터리를 넘어서, 다양한 전략적 문제 해결 능력의 기초를 마련합니다.
- 지식의 전이: 한 게임에서 습득한 전략과 개념을 다른 게임이나 문제로 확장하는 능력.
- 추상화: 특정 상황에 국한되지 않고, 보다 일반적인 문제 해결 원칙을 도출하는 과정.
- 메타 학습: ‘어떻게 학습할 것인가’를 배우며, 새로운 도전 과제에 빠르게 적응하는 능력.
오델로라는 테스트베드를 통해 이러한 개념들을 체계적으로 검증하고, 최종적으로 범용 인공지능(AGI)으로 나아가기 위한 청사진을 마련할 수 있습니다.
결론
오델로를 통한 게임 지능 연구는 단순한 게임 플레이를 넘어, AI가 어떻게 추상적 사고와 전략적 판단을 발전시켜 나가는지를 보여줍니다.
- 단계적 학습과 전략적 사고: 게임의 규칙 이해부터 고급 전략 습득까지, AI는 단계별 학습을 통해 점진적으로 지능을 확장합니다.
- 범용 인공지능으로의 전환: 이러한 연구가 축적되면, 특정 게임에 국한되지 않고 다양한 도메인에서 활용 가능한 AGI 개발에 큰 도움이 될 것입니다.
게임이라는 제한된 환경 속에서 지능이 어떻게 발현되고 발전할 수 있는지에 대한 이 탐구는, 인공지능 연구의 미래에 중요한 통찰을 제공합니다.
이 글은 GIST 김선동 교수님의 강의노트트를 바탕으로 작성되었습니다. 원문에서는 오델로를 테스트베드로 활용한 게임 지능과 이를 통해 AGI로 나아갈 수 있는 가능성을 상세히 논의하고 있으며, 다양한 최신 연구 결과와 사례들을 함께 소개하고 있습니다.