일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 웹3.0
- ChatGPT
- lambda
- frontend
- Golang
- airflow
- vln
- vision-language navigation
- Hexagonal Architecture
- discord
- datahub
- data discovery
- bricksassistant
- Spark
- Rust
- MLFlow
- 디스코드봇
- embodied
- Ai
- web3.0
- 디스코드
- 챗봇
- 디스코드챗봇
- GPT
- databricks
- video understanding
- backend
- s3
- 블록체인
- embodied ai
- Today
- Total
BRICKSTUDY
Embodied AI : Next-Gen AI System(1) 본문
1. 개요
안녕하세요. 브릭스터디 박찬영입니다. 이번에 포스팅할 내용은 최근 제가 공부를 시작한 AI 연구 분야인 "Embodied AI"에 대한 내용입니다. Embodied AI에 대해서 공부를 이제 막 시작한 단계라서 저도 이제 막 알아가고 있는 단계인데, 그 내용들을 시리즈로 포스팅할 계획입니다. 그래서 오늘 처음 제가 소개할 내용은 AI 시스템의 발전 과정에 대한 이야기를 가지고 왔습니다. 왜 Embodied AI 연구 분야가 떠오르고 있는지를 알아 갈 수 있으면 좋겠습니다.
본 게시글의 내용은 서울대학교 장병탁 교수님의 유튜브 강의 내용을 참고했습니다.
유튜브 링크 :
https://www.youtube.com/watch?v=XYGX6g8VvH0&t=875s&pp=ygUK7J6l67OR7YOBIA%3D%3D
https://www.youtube.com/watch?v=-unS7ppoI88&pp=ygUf7ISc7Jq464yA7ZWZ6rWQIEFJIOyXrOumhO2Vmeq1kA%3D%3D
2. Introduction
2024년 엔비디아의 개발자 연례행사 GTC(GPU Technology Conference)에서 CEO 젠슨 황은 인공 일반 지능(AGI) 시대가 5년 남았다는 공언을 했습니다.
AGI는 단순한 기계적 학습을 넘어서 인간의 지능을 전방위적으로 모방하고자 하는 목표를 가지고 있는 개념입니다. 기존의 인공지능은 "특정 목적 인공지능(Narrow AI)"라고 할 수 있는데, 이는 주어진 특정 분야나 한정된 작업에 대해 인간 수준 혹은 그 이상의 성능을 보여주는 인공지능을 일컫는 말입니다.
반면에 AGI는 다양한 분야에서 인간과 유사한 학습, 이해, 추론 능력을 지닌 지능의 형태를 지향합니다. AGI를 다른 말로 "Full AI", "Strong AI"라고도 합니다. AGI의 목표는 인간의 일반적 지능(언어 학습, 문제 해결, 예술 창작 등)을 재현하는 것입니다.
궁극적으로 컴퓨터가 인간과 동등한 수준의 창의적 사고와 문제 해결 능력을 유연하게 가지게 하는 것을 포함합니다.
AGI를 실현하기 위한 조건들
그렇다면 AGI의 단계로 나아가기 위한 조건은 다음과 같습니다.
AGI 실현을 위한 조건
1. 인간 수준 이상의 일반적 문제 해결 능력을 가진 AI 시스템
2. 실제 환경을 감지하고 상호작용할 수 있는 물리적 형태
1번 조건은 AI 모델 자체와 관련이 있고 2번 조건은 로보틱스 분야와 관련이 있다고 할 수 있습니다. 이 두 가지를 효과적으로 통합하는 것은 매우 복잡하고 도전적인 과제이고, 이를 연구하고 실현하려는 분야가 바로 Embodied AI 분야라고 할 수 있습니다.
Embodied AI
Embodied AI는 인공지능이 물리적 형태를 통해 환경과 직접 상호작용하며, 학습하고 적응하는 과정을 연구합니다. 이 분야는 AI, 로보틱스뿐만 아니라 인지과학, 신경과학, 철학 등 다양한 학문의 지식을 융합하여 지능의 본질과 인지에 대한 깊이 있는 이해를 추구합니다.
3. What is intelligence
Introduction에서 살펴본 것과 같이 AGI가 중요한 키워드이다. 그렇다면 도대체 "intelligence"라는 것은 무엇인가?
Intelligence는 다음과 같이 정의할 수 있다.
- Achieve long-term goals in uncertainty by solving problems
- Perceive, reason, and act in a dynamic environment
"불확실성 속에서 문제들을 해결하여 장기적 목표를 달성한다."는 것은 연속적인 인식을 바탕으로 적절한 행동을 선택하는 과정을 포함하고, "동적 환경에서 인식하고, 추론하고, 행동한다."는 것은 정확히 P* → A (인지 → 행동) 로의 mapping을 설명합니다.
이를 조금 더 수학적으로 명료하게 표현하면, 지능(f)은 연속적인 환경 인식(P*)을 바탕으로 적절한 행동(A)을 선택하는 함수다.
f : P* → A
4. 현대 AI와 머신러닝
intelligence를 정의를 했는데, 이제 그럼 AI 시스템들을 살펴봅시다.
Classical AI와 Modern AI 시스템
Classical AI는 주로 1950년대 ~ 1980년대까지 주류를 이루던 AI의 접근 방식을 의미하는데, 우리가 잘 알고 있는 "AlphaGo"를 생각하면 됩니다. 이들은 주로 규칙 기반의 시스템이고 전문가 시스템의 접근 방식을 취했습니다.
Classical AI
- Reasoning system
- Rule-based
- Expert system
Modern AI
Modern AI는 주로 1990년대 이후 발전한 방식으로 2010년대 이후 급속히 발전했습니다. 보통 기계학습과 딥러닝 방식이 해당합니다.
Modern AI
- Learning system
- Data-driven AI
- Deep learning
System view
Classical AI와 Modern AI 흐름에 대해서 가볍게 알아봤는데, 이를 조금 더 "intelligence" 측면에서 살펴보면 다음과 같습니다.
Classical AI에서는 Level 1 AI로 보고, "programmed intelligence"라고 칭하기도 합니다. 이들은 Rule-based system을 가지고 있고 사람의 지식을 그대로 프로그램하여 규칙을 만드는 형식입니다.
우리가 게임 속 NPC를 생각하면 이해하기 편할 것 같습니다. 게임 속 NPC들은 사람이 정해진 시나리오에서 입력에 대한 답을 제공합니다.
Modern AI에서는 Level 2 AI로 보고, "Learned Intelligence"라고 할 수 있습니다. 인간의 지식을 기계에 넣는 대신에 기계가 데이터에서 자동으로 학습하는 것입니다. 보통 이 단계에서부터 우리는 어떠한 종류의 x를 받아서 어떠한 종류의 y를 낼 수 있습니다.
- 이미지 → 이미지
- 이미지 → 텍스트
- 텍스트 → 이미지
- 텍스트 → 텍스트
즉 모든 유형의 모달리티가 가능한 것입니다. 하지만, 대부분의 딥러닝은 여전히 입출력 y = f(x)의 형식에서 모델의 복잡도만 증가했을 뿐이고 생각해 보면 상당히 단순한 추론을 하는 mapping 위주인 것은 여전합니다.(논리적으로 하나의 추론을 하면 답이 나오는 매핑을 학습하는 것)
여기서 우리는 이런 질문을 해볼 수 있습니다.
Intelligence is just a complex mapping?
여기서 우리는 다시 machine learning과 다음 세대의 인공지능을 생각해봐야 합니다. 인공지능에서 지능이라고 하는 것이 과연 단순 복잡한 mapping에 해당하는 것인가? 이전에 정의한 "Intelligence"와는 거리가 상당합니다.
다시 진짜 지능이란 무엇인지 정리해 보면 다음과 같습니다.
불확실성상에서 문제를 푸는 능력
문제를 푸는 것은 단순 하나의 Step으로 푸는 것이 아니라, 순차적인 Action을 통한 탐색으로 long-term goal을 달성하는 것
Perception-action cycle
Not just an input-output mapping
이러한 측면에서 봤을 때, Classical AI에서는 환경을 무시하고 지식을 프로그래밍했고, Modern AI에서는 지식은 무시하고 데이터를 기반으로 지식을 추출하는 시도를 했다면, 궁극적으로 지식이 환경하고 상호작용하면서 행동이나 경험을 통해 축적되는 지식으로 발전할 수 있는 AI(AI as Cognitive system)으로 다음 세대 AI가 나아가야 합니다.
5. Next-level AI system
현재 연구가 활발하게 진행되고 있는 AI 시스템입니다. 이들은 Level 3 AI이며 "Autonomous intelligence"의 개념입니다. 에이전트는 환경과 상호작용하면서 스스로 데이터를 생성해 내고, 이를 이용한 학습으로 "long-term goal"을 위해서 나아가는 형식입니다. 에이전트는 환경을 인지하고 액션을 진행합니다. 그 액션으로 다시 변화한 환경을 통해 데이터를 만들고 학습하는 형식의 Perception-Action cycle이 만들어지게 됩니다.
여기서 Embodiment의 중요성이 나타납니다.
Why Embodiment?
Intelligence is learned in (inter)action with the environment with body
인간의 경우를 먼저 생각해 봅시다. 인간도 어떤 것을 배운다고 했을 때, 실제 세계와 상호작용을 하면서 배우게 됩니다. Next-level AI 시스템에서도 실제 세계와 상호작용을 하면서 학습하는 시스템을 추구하지만, 어떻게 상호작용을 할 수 있는가? 가 문제입니다. 그래서 Embodiment가 새로운 패러다임으로 자리하게 된 것입니다. 결국 상호작용을 위한 body가 있어야 하는 것이고, body를 통해 실제 세계에서 어떠한 액션을 진행하고 이를 통한 결과를 다시 학습하는 방식인 것입니다.
AI의 미래 6단계
추가적으로 AI가 나아가려고 하는 미래 6단계는 다음과 같습니다.
1. Expert Systems(human programming)
이는 Classical AI와 같은 단계이며, 이전에 설명과 같습니다.
2. Deep Learning systems(Model)
현재 지금 단계에 있지만, level up 직전이라고 생각합니다. Model과 Data 위주의 AI system입니다.
3. Self-Teaching Systems
Self-teaching, Continual learning, interactive learning과 같은 키워드로 앞서 설명한 바와 같이 실제 환경과 상호작용하면서 스스로 성능을 향상시킬 수 있는 시스템입니다.
4. Self-Reflective Systems
Self-reflective learning, learning by experiment, recursively self improving과 같은 키워드로 이는 long-term goal을 위해서 스스로 중간 단계의 Goal들을 수정해 나갈 수 있는 시스템입니다. 현재 아는 것을 가지고 무엇인가를 해보고, 그 결과를 보고 새로운 결과를 다시 추론할 수 있는 단계입니다.
5. Human-Level AGI
말 그대로 인간 수준의 인공지능입니다.
6. Super-Human AI
이제는 인간을 뛰어넘는 인공지능의 단계입니다.
6. 마무리
지금까지 AI 시스템에 대한 내용들을 살펴봤습니다. 저도 공부하는 입장이라 항상 모든 정보는 비판적으로 받아주셨으면 좋겠습니다. 틀린 내용이 있을 수 있으니 댓글로 알려주시면 수정하겠습니다.
'AI' 카테고리의 다른 글
RNN, Sequence-to-Sequence model (0) | 2024.11.04 |
---|---|
인공지능 기초 Optimization (0) | 2024.10.26 |
Supervised Learning 기초 (6) | 2024.10.11 |
Embodied AI : Vision-Language Navigation Challenges (3) | 2024.09.28 |
Embodied AI : Survey(2) (3) | 2024.09.01 |