
시작하기 전에핑계입니다.사실 군복학을 사유로 10월달 초 부터 수업에 참여하게 되어서 거의 독학으로 공부하고 과제를 진행한 것 같다.그렇기에 부족하고 잘못된 내용이 적지 않을것 같은데,, 많은 피드백 부탁드립니다.내가 생각하는 강화학습이란환경을 input으로 받고 task와 환경에 맞는 행동 정책을 학습한 에이전트를 output으로 반환하는 구조라고 생각한다.이런 환경에 맞는 행동을 학습하는 과정은 보상이 중요하다, 결국 에이전트는 보상을 통해서 환경을 학습하는 것이다.즉 강화학습을 설계하는 과정은 환경과 task에 맞는 행동 정책(가치 함수), 보상을 설계하는 과정이라고 생각했다.중간고사 과제(미로찾기, 그리고 3가지의 열쇠와 문을 곁들인)환경 설명https://docs.google.com/docume..