當前位置:舟山新區人才網 >> 職業指導 >> 推薦閱讀:《強化學習:原理與Python實現》

推薦閱讀:《強化學習:原理與Python實現》

2019-08-15 08:56:39  來源:互聯網  作者:未知  瀏覽46次 
      強化學習(Reinforcement Learning,RL,又譯為“增強學習”)這一名詞來源于行為心理學,表示生物為了趨利避害而更頻繁實施對自己有利的策略。例如,我每天工作中會根據策略決定做出各種動作。如果我的某種決定使我升職加薪,或者使我免遭處罰,那么我在以后的工作中會更多采用這樣的策略。據此,心理學家Ivan Pavlov在1927年發表的專著中用“強化”(reinforcement)這一名詞來描述特定刺激使生物更趨向于采用某些策略的現象。強化行為的刺激可以稱為“強化物”(reinforcer)。因為強化物導致策略的改變被稱為“強化學習”。   
      心理學家Jack Michael與1975年發表文章《Positive and negative reinforcement,a distinction that is no longer necessary》,說明了強化包括正強化(positive reinforcement)和負強化(negative reinforcement),其中正強化使得生物趨向于獲得更多利益,負強化使得生物趨向于避免損害。在前面例子中,升職加薪就是正強化,避免被解雇就是負強化。正強化和負強化都能夠起到強化的效果。

      人工智能(Artificial Intelligence,AI)領域中有許多類似的趨利避害的問題。例如,著名的圍棋AI程序AlphaGo可以根據不同的圍棋局勢下不同的棋。如果它下的好,它就會贏;如果下的不好,它就會輸。它根據下棋的經驗不斷改進自己的棋藝,這就和行為心理學中的情況如出一轍。所以,人工智能借用了行為心理學的這一概念,把與環境交互中趨利避害的學習過程稱為強化學習。                          

      在人工智能領域中,強化學習是一類特定的機器學習問題。在一個強化學習系統中,決策者可以觀察環境,并根據觀測做出行動。在行動之后,能夠獲得獎勵。強化學習通過與環境的交互來學習如何最大化獎勵。例如,一個走迷宮的機器人在迷宮里游蕩(圖1-1)。機器人觀察周圍的環境,并且根據觀測來決定如何移動。錯誤的移動會讓機器人浪費寶貴的時間和能量,正確的移動會讓機器人成功走出迷宮。在這個例子中,機器人的移動就是它根據觀測而采取的行動,浪費的時間能量和走出迷宮的成功就是給機器人的獎勵(時間能量的浪費可以看作負獎勵)。

      強化學習的最大特點是在學習過程中沒有正確答案,而是通過獎勵信號來學習。在機器人走迷宮的例子中,機器人不會知道每次移動是否正確,只能通過花費的時間能量以及是否走出迷宮來判斷移動的合理性。

       一個強化學習系統中有兩個關鍵元素:獎勵和策略。

      ·獎勵(reward):獎勵是強化學習系統的學習目標。學習者在行動后會接收到環境發來的獎勵,而強化學習的目標就是要最大化在長時間里的總獎勵值。在機器人走迷宮的例子中,機器人花費的時間和能量就是負獎勵,機器人走出迷宮就可以得到正獎勵。

      ·策略(policy):決策者會根據不同的觀測決定采用不同的動作,這種從觀測到動作的關系稱為策略。強化學習的學習對象就是策略。強化學習通過改進策略以期最大化總獎勵。策略可以是確定性的,也可以不是確定性的。在機器人走迷宮的例子中,機器人根據當前的策略來決定如何移動。

推薦閱讀:強化學習:原理與Python實現

責任編輯:fufb
標簽:
舟山新區人才網版權與免責聲明:
1、本網轉載其他媒體,目的在于傳遞信息,并不代表贊同其觀點和對其真實性負責,本網不承擔此類稿件侵權行為的連帶責任。
2、如本網所轉載稿件涉及版權等問題,請著作權或版權擁有機構致電或來函與本網聯系,本網將在第一時間處理妥當。如有侵犯您的名譽權或其他權利,亦請及時通知本網。本網在審慎確認后,將即刻予以刪除。
3、本網原創文章未經本網允許,私自轉載者本網保留追究其版權責任的權利,轉載請注明來源:舟山新區人才網:http://dh.abler.cn。
發表評論
網友評論僅供其表達個人看法,并不表明愛博高級人才網同意其觀點或證實其描述。

用戶名: 密碼: 驗證碼: 驗證碼


  • 發表評論須知:
  • 一、所發文章必須遵守《互聯網電子公告服務管理規定》;
  • 二、嚴禁發布供求代理信息、公司介紹、產品信息等廣告宣傳信息;
  • 三、嚴禁惡意重復發帖;
  • 四、嚴禁對個人、實體、民族、國家等進行漫罵、污蔑、誹謗。
  • 頻道推薦

    精彩推薦

    職場精理100條,職場技能培養之首 職場沒有一步到位,沒有一勞永逸,沒有理所應當,沒有非你莫屬,而是不進則退,不思則怠,不學則傻,沒有貢獻,不能創造價值就要…[詳細]

    職業百科:二副 職業百科:二副一、職業定義(一)職業定義 二副(second officer),是指職位僅低于大副的船舶駕駛員。 二副在船長、大副領導下…[詳細]

    職業百科:酒店品評家 一、職業定義(一)職業定義:\"酒店試睡員\"在國外被稱為\"酒店品評家\",要求應聘者具有敏銳觀察力與感受力,熱愛旅游,樂于分享所…[詳細]

    職業百科:育嬰師 一、職業定義 (一)職業定義:育嬰師是用現代教育觀念和科學方法對0-3歲嬰兒進行生活照料、護理和教育的專業人員。主要從事0-3…[詳細]

    求職簡歷如何寫得更好!  對于應屆生來說,找工作時如何才能在還沒面試前就得到HR的青睞呢?毫無疑問,你該好好學習如何寫好一份求職簡歷。一般應屆…[詳細]

    最新信息

    職場精理100條,職場技能培養之首職場沒有一步到位,沒有一勞永逸,沒有理所應當,沒有非你莫屬,而是不進則退,不思則怠,不學則傻,沒有貢獻,不能創造價值就要…[詳細]

    ·推薦閱讀:《極簡時間》將你的時間之旅變得簡單
    ·職業百科:廚師
    ·職業百科:電子員
    ·職業百科:三副
    ·職業百科:三管輪
    ·職業百科:二管輪
    ·職業百科:大管輪
    ·職業百科:大副
    ·職場上做這4件壞事,你的高升速度會很快

    關于我們 | 付款方式 | 會員協議 | 聯系我們 | 合作代理 | 廣告服務 | 隱私聲明 | 法律聲明 | 服務條款 | 友情鏈接 | 會員價格

    版權所有 舟山愛博仁人力資源咨詢有限公司
    地址:浙江省舟山市定海區育苗路9號三樓(301~305)
    客服:0580-2086078 電話:0580-2526078 傳真:0580-2262078
    北京赛车开奖纪录