[AI] 강화학습의 개념

기록하는 백앤드개발자 2024. 10. 9. 12:32

강화학습: AI가 경험을 통해 학습하는 방법

강화학습(Reinforcement Learning)은 기계학습의 한 분야로, 주변 환경과 상호작용하며 시행착오를 통해 최적의 행동 정책을 학습하는 방법이다. 이 접근법은 인간이나 동물이 경험을 통해 학습하는 방식과 유사하다.

ㅇ 에이전트(Agent): 학습하고 결정을 내리는 주체

ㅇ 환경(Environment): 에이전트가 상호작용하는 세계

ㅇ 상태(State): 현재 환경의 상황

ㅇ 행동(Action): 에이전트가 취할 수 있는 선택

ㅇ 보상(Reward): 행동의 결과로 얻는 피드백

ㅇ 정책(Policy): 각 상태에서 어떤 행동을 취할지 결정하는 전략

시행착오(Trial-and-Error)와 지연보상(Delayed Reward)

ㅇ 에이전트는 현재 상태를 관찰한다.

ㅇ 정책에 따라 행동을 선택한다.

ㅇ 환경은 새로운 상태로 변화하고 보상을 제공한다.

ㅇ 에이전트는 이 경험을 바탕으로 정책을 업데이트한다.

ㅇ 이 과정을 반복하며 최적의 정책을 학습한다.

ㅇ Q-Learning: 행동-가치 함수를 학습하여 최적 정책을 찾는 방법

ㅇ SARSA: Q-Learning과 유사하지만 현재 정책을 따르는 온-폴리시 방법

ㅇ 정책 경사(Policy Gradient): 정책을 직접 최적화하는 방법

ㅇ Actor-Critic: 가치 함수와 정책을 동시에 학습하는 하이브리드 방법

ㅇ Deep Q-Network (DQN): 딥러닝을 Q-Learning에 접목한 방법

장점	복잡한 환경에서 유연하게 적응 가능 명시적인 프로그래밍 없이 최적의 전략 학습 연속적인 의사결정 문제에 적합
단점	학습에 많은 시간과 데이터가 필요 안정적인 학습이 어려울 수 있음 현실 세계 적용 시 안전성 문제 발생 가능

ㅇ 로봇이 시행착오를 겪어 점프하는 방법 습득

강화학습은 AI가 실제 세계와 유사한 방식으로 학습할 수 있게 해주는 강력한 도구다. 복잡한 문제를 해결하고 지속적으로 개선되는 시스템을 만드는 데 큰 잠재력을 가지고 있다.

ㄴ 인간 피드백을 통한 강화 학습 설명