강화학습
-
[HandsOn] 18. 강화 학습- 내용 정리1[도서완독]Hands On Machine Learning 2022. 9. 19. 20:21
인생이... 갈수록 힘들어지고 있다^_ㅜ 이럴 때일수록 열심히 하려 하지 말고 꾸준히 조금이라도 해야 하는 시기인 것 같다. 후.... 힘내자.... ㅠㅠ 흐엉엉 2013년에 딥마인드의 연구원들이 게임 '아타리'를 아무 정보 없이! 그냥 플레이하면서 학습하는 시스템을 시연하며 강화학습의 혁명을 일으킴! 화면 픽셀에 대한 데이터만 입력으로 받고 게임 규칙에 대한 어떤 사전 정보도 없이 사람들 능가하는 성과를 냈다고 한다. 18.1 보상을 최적화하기 위한 학습 강화 학습에서 소프트웨어 에이전트는 관측을 하고, 주어진 환경에서 행동을 함. 그리고 그 결과로 보상을 받음. 에이전트의 목적: 보상의 장기간 기대치를 최대로 만드는 행동을 학습하는 것 양의 보상은 기쁨, 음의 보상은 아픔...? -> 간단히 에이전트..