ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 게입니다배우는 딥러닝~강화학습 알아봐요
    카테고리 없음 2020. 3. 2. 09:08

    사람은 태어난 본인의 가족, 사회에서 지도학습, 강화학습, 비지도학습의 각 부분이 균등하게 적용되지만 가끔 이상한 환경에 놓이면 어떤 학습법이 특히 많아지는 경우도 있다.일반적으로 시행착오에서 배우고 경험이 누적돼 시행착오를 줄이는 비결이 되지만 경험 누적은 책이 본인 미디어, 대화 등을 통한 간접 경험 누적으로 더 빠른 경험 축적을 추구한다.이와 같이 Explore(탐색에 의한 경험의 축적)와 Exploit(경험의 활용)으로 행동이 우아해지고 보수화된다. 이것의 기반은 진심이며, 칭찬이 본인의 보수, 도움 등을 위해서 정제된 행위로 만들어 간다.강화학습은 지도학습과 비지도학습의 중간쯤 되는 어딘가에 있는 학습법으로 우리 학습법과 매우 비슷하다.강화학습은 현재 상태(State)에서 어떤 행동(Action)을 취하는 것이 가장 적합한지를 학습하는 것으로, 한마디로 정의하면 시행착오에서 배우고 경험을 누적하여 시행착오를 줄인다.


    >


    행동할 때마다 외부 환경에서 보상(Reward)이 주어지며, 이 보수를 최대화하는 방향으로 학습합니다.예를 들어 사람(Agent)은 이 세상(Environment)을 사는 순간(State)마다 어떤 결정(Decision)을 하고 행동(Action)을 해야 하는데 그 행위(Action)는 보상(Reward)을 세상(Environment)으로 받음으로써 동물이 먹이를 얻는 방법으로 행동이 바뀌듯 경험이 누적된다.


    >


    아기가 걸음마를 배우는 과정을 예로 보면 아기(agent)는 부모(환경)로부터 칭찬을 받거나(보상:reward)를 받아 다리를 휘청거리며 움직여(action)로부터 실수를 줄이는 행위를 누적하면서 나쁘지 않고 개중에는 걷게 된다.강화학습(Reinforcement Learning : RL)은 Q-Learning이 유명한데 Q-Learning은 무작위 행동빈도를 낮추면서 세계가 주는 보상에 대한 경험을 쌓고 세상의 다양한 형태에 대응할 수 있는 가장 올바른 행동양식을 찾는 학습방법으로 Q Value는 특정 상태에서 액션을 수행했을 때 기대되는 보상의 총합으로서 보상의 최대치를 따르겠다. Q-Learning을 딥러닝에 적용한 DQN은 초기에는 매우 어려운 트렌드를 얻었는데, 이러한 Q-Learning의 위치는 아래의 트리로 확인하자.


    >


    2013년 13월 영국 디프마잉도우는 구글에 인수되기 전에 강화 학습을 이용한 것이 요로의 논문을 발표합니다.논문 재목이 playing atari with deep reinforcement learning이라는 https://www.youtube.com/embed/V1eYniJ0Rnk이 논문 이캉로 강화 학습이 많은 트렌드를 얻어 많은 업체가 개발에 진입하는 데 딥 마인드는 해안 구글에 인수된 DQN보다 성능이 좋은 A3C를 발표하겠습니다.


    >


    더 자세한 이야기는 UC Berkeley, 강의 자료를 참조하면:http://rail.eecs.berkeley.edu/deeprlcourse/​ 요사이은 DQN보다 A3C과 Policy Gradient방식이 더 트렌드가 좋다고 알려졌다.A3C(Asynchronous Advantage Actor-Critic)알고리즘은 Replay Memory를 대신하는 에이전트(Agent)를 비동기식(Asynchronous)과 함께 학습시킴으로써 학습 속도를 높인 것이었다 이처럼 CNN을 적용한 DQN은 게임을 매우 잘하니 남을 이기기도 하지만 늘 그랬던 것처럼 색의 DQN는 회색의 사람 플레이어보다 우수한 게임이 많다.


    >


    특히 breakout같은 비디오 게임입니다.은인을 완전히 추월하지만 제1의 아래 Montezuma's Revenge게이입니다는 DQN학습이 0퍼센트라는 전혀 학습을 못하고 있다.즉, 이겁니다.게는 게입니다.복잡도가 매우 더 크다는 얘기 A3C에서는 좀 된다.


    >


    귀추가 이러니 지금의 상용 게입니다. 스타크래프트 같은 것을 처리하기 위해서는 연구가 더 필요한 것이 쉽게 예측된다.현재 AIIDE, CIG, SSCAIT가 세계 3대 스타 크래프트 AI대회로 알려졌지만 8명으로 구성된 삼성 SDS의 SAIDA팀이 20일 8년 월 AIIDE스타 크래프트 AI대회에서 우승했어요.대한민국 엔지니어도 상당한 실력이었다.딥러닝은 어떻게 해서 게니를 배우는 방법보다 더 난이도가 있지만 사람은 게입니다.설명서를 보지만 딥러닝은 오직 영상만 제공되고 규칙은 시행착오로 스스로 찾아낸다.이런 강화학습이 좋은 점은 무엇보다 다른 학습에서 요구되는 데이터과의 라벨이 적게 요구되며 기계 스스로 시행착오로 학습을 찾으러 간다는 것이었다.그래서 로봇을 걷게 하는 것이 과인 자율주행, 자연어 처리, 게입니다.등에 사용되는 기술로 자리 잡았다. 이쯤에서 강화학습이 시작되는 간단한 이론부터 보자.에이전트(예시로 사람이 과잉 캐릭터)가 행동하고 보수를 받으면 행동은 환경의 변화를 낳고, 그러면 에이전트는 또 새로운 행동을 해야 하는 귀추의 반복이 되지만 결국 보수를 받기 위한 행동의 표결이 중요하다.향후 행보를 선택하는 비결에 대한 규칙을 정책(policy)이라고 하는데 집값이 뛰자 종부세를 올려 집값을 잡으려는 정책 수립과 비슷한 정책 개념이었다.이런 귀추를 정형화하면 어떤 상태가 있고 행동도 있을 수 있기 때문에 상태와 행동으로 다이어그램을 구성할 수 있다.그러므로 한 상태에서 향후 상태로 바뀔 때 보상이라는 과정이 시작되면 된다.다만 향후 상태의 확률은 현재 상태와 현재의 행동에 의해서만 영향을 받을 수 있으며 과거의 영향을 배제한 규정을 적용해 완성되면 마르코프의 표결 과정이 완성된다.


    >


    상태 변화는 확률이 표결하고 상태 변화는 정해진 행동을 해야 한다, 이때의 누적 보상이 최고가 되는 행동의 절차를 스스로 찾아 상태 변화를 지속하기에 확률이 0퍼센트가 되면 그 상태 변화의 연결은 끊어진 것이다. 에이전트가 확률적 환경 속에서는 같은 행동을 해도 같은 보상을 받을 수 있는 상황이 자신감이기 때문에 즉각적인 보상과 미래 보상의 가치를 달리하고 오래 잘 작동시켜야 합니다.즉 미래보상 가중치를 즉각 보상 가중치보다 오전에 어림잡는 차감된 보상을 구성하고 거의 매일 차감된 미래 보상이 최대가 되도록 행동을 선택하는 전략(policy)이 좋은 전략이다.이렇게 차감된 미래 보상인 Q-함수를 정의하고 Q값이 최대인 행동을 선택하는 방식으로 방정식을 만들어 이를 반복해 돌려 Q-함수를 계산할 수 있다면 정책 수립이 된다.현재 상태와 행동으로 구성된 Q-값으로 앞으로의 상태와 행동 Q-값으로 함수를 만들면


    >


    위와 함께 벨만 방정식(bellman equation)이 만들어진다. 함수를 보면, 즉시 보상과 이후의 상태에서 얻을 수 있는 장래 최대 보상합이 Q값이 된다.현재 상태에서 추정된 큐 값=보상+이후 상태로 추정된 큐 값처럼 구성해 반복하면 큐 함수를 구할 수 있기 때문에 컴퓨터에 적용하면 되지만 환경이 복잡하고 크기가 넓으면 기하급수적으로 계산 영역이 넓어져 실사용이 불가능해진다.​ 디프마잉도우에서는 이런 사건을 해결하기 때문에 Q-Learning을 DQN에서 수정했지만 4개가 추가되고 현실의 사용이 가능하게 되었습니다.날)Q-Learning알고리즘에 디플러 닌을 적용 2)CNN의 기법을 추가 3)경험 리플레이 추가 4)목표 네트워크 분리 디프마잉도우은 이에 고기를 달고 개선하고 결국 알 빠코를 만들어 신약 연구하는 단계에 가고 있다.테슬라는 자율주행에 이 기법을 사용해 보스턴 다이본인믹스는 로봇에 이 기법을 사용해.. 강화학습이 이처럼 최신 이슈기술로 부상중이었다. 이 이야기가 길어지므로 이쯤에서 마무리하고 실제 코딩은 이후 포스팅으로 미룬다.아래에 좋은 참겐 게이트가 있다.https://hackernoon.com/mit-6-s094-deep-learning-for-self-driving-cars-20일 8-lecture-3-notes-deep-reinforcement-learning-fe9a8592e것 4a​ ​ ​ ​ By수수깡


    댓글

Designed by Tistory.