強(qiáng)化學(xué)習(xí)解釋了:了解該機(jī)器學(xué)習(xí)技術(shù)如何使AI適應(yīng)和卓越在動(dòng)態(tài),數(shù)據(jù)驅(qū)動(dòng)的環(huán)境中。
增強(qiáng)學(xué)習(xí)(RL)是機(jī)器學(xué)習(xí)的子場(chǎng),可以解決艱苦而動(dòng)態(tài)的問(wèn)題。它可以解決傳統(tǒng)ML(如監(jiān)督學(xué)習(xí))無(wú)法做到的任務(wù)。它通過(guò)獎(jiǎng)勵(lì)正確的行動(dòng)來(lái)訓(xùn)練系統(tǒng)以適應(yīng)和改進(jìn)。
RL制造智能系統(tǒng),可以自己做出決定。它可以控制機(jī)器人技術(shù),創(chuàng)建無(wú)與倫比的AI對(duì)手或教自動(dòng)駕駛汽車(chē)來(lái)處理復(fù)雜的交通情況。
RL正在快速增長(zhǎng)。到2030年,全球AI市場(chǎng)將超過(guò)1.8萬(wàn)億美元,RL發(fā)揮了很大作用。 RL適應(yīng)動(dòng)態(tài)環(huán)境的能力使其成為整個(gè)行業(yè)中的游戲規(guī)則,從醫(yī)療保健到金融,在此驅(qū)動(dòng)更智能,更有效的解決方案。 RL市場(chǎng)在2023年為28億美元,到2030年的增長(zhǎng)330億美元,增長(zhǎng)超過(guò)41%。
強(qiáng)化學(xué)習(xí)(RL)是一個(gè)學(xué)習(xí)過(guò)程,代理商在試驗(yàn),錯(cuò)誤以及獎(jiǎng)勵(lì)和懲罰系統(tǒng)中做出決策。它從環(huán)境中獲得反饋,以做出更好的選擇并解決機(jī)器人,游戲和自動(dòng)駕駛汽車(chē)等嚴(yán)重問(wèn)題。
簡(jiǎn)而言之,RL通過(guò)執(zhí)行,嘗試不同的動(dòng)作,查看有效的方法然后進(jìn)行調(diào)整來(lái)學(xué)習(xí)。這就像教自己一項(xiàng)新技能一樣 - 您根據(jù)結(jié)果嘗試,失敗和改進(jìn)。這與其他AI的方法不同,例如無(wú)監(jiān)督的學(xué)習(xí)或監(jiān)督學(xué)習(xí)。無(wú)監(jiān)督的學(xué)習(xí)發(fā)現(xiàn)沒(méi)有標(biāo)簽的模式。監(jiān)督的學(xué)習(xí)依賴(lài)于預(yù)定的示例。在“最佳”決策隨時(shí)間變化的情況下,RL蓬勃發(fā)展。
獎(jiǎng)勵(lì)信號(hào):這是RL的基礎(chǔ)。獎(jiǎng)勵(lì)就像提示代理商朝著更好的選擇推動(dòng)的提示。
延遲的獎(jiǎng)勵(lì):并非一切都立即回報(bào)。 RL教代理人提前思考,以最大程度地提高累積獎(jiǎng)勵(lì)。
探索與剝削:代理商必須探索新的途徑,以找到更好的解決方案,同時(shí)利用已知策略以保持有效。這就像在現(xiàn)實(shí)生活中平衡好奇心與謹(jǐn)慎。
增強(qiáng)學(xué)習(xí)并沒(méi)有從頭開(kāi)始。它的根源回到1980年代的理查德·薩頓(Richard Sutton)和安德魯·巴托(Andrew Barto)。他們的工作是現(xiàn)代RL技術(shù)的基礎(chǔ):
強(qiáng)化學(xué)習(xí):介紹,1998年:定義RL原理和算法的書(shū)。
學(xué)習(xí)通過(guò)時(shí)間差異的方法進(jìn)行預(yù)測(cè), 1988年(論文):引入了RL的時(shí)間差異學(xué)習(xí)。
Actor-Critic模型, 1983年(概念):RL中的統(tǒng)一政策和基于價(jià)值的方法。
策略梯度方法, 1999年(概念/論文):在連續(xù)的動(dòng)作空間中使RL優(yōu)化成為可能。
從價(jià)值函數(shù)到Q學(xué)習(xí)及以后,RL已成為AI的基本組成部分,推動(dòng)了機(jī)器人技術(shù),游戲和自動(dòng)化方面的進(jìn)步。
對(duì)RL感興趣?在您的時(shí)區(qū)雇用機(jī)器學(xué)習(xí)開(kāi)發(fā)人員,以解決您最具挑戰(zhàn)性,最具動(dòng)態(tài)和復(fù)雜的問(wèn)題。
在強(qiáng)化學(xué)習(xí)(RL)中,代理通過(guò)與環(huán)境互動(dòng)來(lái)學(xué)習(xí)。他們改善了通過(guò)迭代獲得更好結(jié)果的策略。與監(jiān)督學(xué)習(xí)不同,這是一種使用標(biāo)記數(shù)據(jù)的機(jī)器學(xué)習(xí)過(guò)程。
當(dāng)RL代理采取行動(dòng)時(shí),環(huán)境會(huì)給它獎(jiǎng)勵(lì)或處罰,以將其推向更好的戰(zhàn)略。隨著時(shí)間的流逝,它可以改善其行為,平衡新的動(dòng)作與舊技術(shù)。
政策和價(jià)值功能是加強(qiáng)學(xué)習(xí)的核心 - 他們告訴代理商如何做出決策并評(píng)估長(zhǎng)期結(jié)果。
政策:政策是代理商的決策策略,該策略將其映射到行動(dòng)。策略可以是確定性的,對(duì)于每個(gè)狀態(tài)或隨機(jī)的固定動(dòng)作,根據(jù)概率選擇了動(dòng)作。
價(jià)值函數(shù):值函數(shù)可預(yù)測(cè)給定狀態(tài)或狀態(tài)行動(dòng)對(duì)的預(yù)期累積獎(jiǎng)勵(lì)。它通過(guò)評(píng)估其選擇的長(zhǎng)期后果來(lái)幫助代理做出更好的決策。
MDP是一個(gè)將RL問(wèn)題分解成較小零件的框架。這使工程師更容易定義環(huán)境和代理。 MDP可以隨著時(shí)間的推移改善代理商的性能。
MDP有:
表明:代理商可以在環(huán)境中看到的情況。
操作:代理商在任何給定狀態(tài)下可用的選項(xiàng)。
獎(jiǎng)勵(lì):采取行動(dòng)的直接反饋。
過(guò)渡:行動(dòng)后從一個(gè)狀態(tài)轉(zhuǎn)移到另一個(gè)狀態(tài)的概率。
折現(xiàn)因子:一個(gè)權(quán)衡即將獎(jiǎng)勵(lì)與將來(lái)獎(jiǎng)勵(lì)的參數(shù)。它阻止了代理人贊成短期收益而不是長(zhǎng)期成功。
MDP可以幫助我們建模環(huán)境的動(dòng)態(tài),包括不確定性。在機(jī)器人技術(shù)中,我們可以模擬現(xiàn)實(shí)世界中的情況,例如傳感器錯(cuò)誤或不可預(yù)測(cè)的條件。
在強(qiáng)化學(xué)習(xí)中,有幾種方法可以培訓(xùn)代理,包括基于模型的學(xué)習(xí)和基于模型的學(xué)習(xí)和政策與政策方法。這些方式指導(dǎo)代理商的學(xué)習(xí)和適應(yīng)方式。
無(wú)模型的RL直接從經(jīng)驗(yàn)中學(xué)習(xí),而無(wú)需建立環(huán)境動(dòng)態(tài)的明確模型。 RL算法(例如Q-LEARNING和SARSA)是無(wú)模型的RL。當(dāng)我們無(wú)法創(chuàng)建模型或不需要時(shí),這效果很好。
基于模型的RL創(chuàng)建了環(huán)境的預(yù)測(cè)模型,該模型允許代理模擬結(jié)果和計(jì)劃行動(dòng)?;谀P偷姆椒ㄔ谟?jì)算上更昂貴,但在準(zhǔn)確性很重要時(shí)是更好的選擇。
RL算法以不同的方式處理數(shù)據(jù),從而影響其靈活性和訓(xùn)練速度。
諸如SARSA之類(lèi)的派利方法會(huì)培訓(xùn)代理商的當(dāng)前政策收集的數(shù)據(jù)。他們迭代地更新代理的行為。
諸如Q學(xué)習(xí)之類(lèi)的非政策方法通過(guò)探索行動(dòng)或其他政策從收集的數(shù)據(jù)中學(xué)習(xí),以提高靈活性和魯棒性。
增強(qiáng)學(xué)習(xí)(RL)使用許多機(jī)器學(xué)習(xí)技術(shù)和算法來(lái)訓(xùn)練代理做出決定。這些包括基于價(jià)值的,基于策略的和混合方法。每個(gè)人都解決了一個(gè)特定的RL問(wèn)題。
基于價(jià)值的方法著重于優(yōu)化值函數(shù)。該值函數(shù)可預(yù)測(cè)給定狀態(tài)下每個(gè)動(dòng)作的預(yù)期累積獎(jiǎng)勵(lì)。
Q學(xué)習(xí)是一種基于價(jià)值的經(jīng)典機(jī)器學(xué)習(xí)方法。它將不同動(dòng)作的值存儲(chǔ)在Q表中。隨著代理商的學(xué)習(xí),它會(huì)根據(jù)獲得的獎(jiǎng)勵(lì)來(lái)更新這些值。但是,在具有許多變量或連續(xù)狀態(tài)的環(huán)境中,Q桌子可能會(huì)變得太大而無(wú)法處理。
為了解決此問(wèn)題,深Q-NETWORKS(DQNS)使用深層神經(jīng)網(wǎng)絡(luò)來(lái)估計(jì)Q功能而不是大Q-table。該網(wǎng)絡(luò)采用當(dāng)前狀態(tài),通過(guò)層運(yùn)行并預(yù)測(cè)每個(gè)可能的動(dòng)作的Q值。通過(guò)將強(qiáng)化學(xué)習(xí)與深度學(xué)習(xí)相結(jié)合,DQN可以解決復(fù)雜的高維問(wèn)題。一個(gè)著名的例子是他們?cè)贏tari游戲中的使用情況,在該游戲中,AI學(xué)會(huì)了直接從RAW PIXEL輸入中玩游戲。
我們可以通過(guò)機(jī)器學(xué)習(xí)RL構(gòu)建什么?強(qiáng)化學(xué)習(xí)通過(guò)構(gòu)建智能系統(tǒng)來(lái)改變了幾個(gè)行業(yè),這些系統(tǒng)在復(fù)雜,動(dòng)態(tài)的環(huán)境中做出決策。從機(jī)器人自動(dòng)化到醫(yī)療保健,RL無(wú)處不在。
強(qiáng)化學(xué)習(xí)是機(jī)器人控制和自動(dòng)化的骨干。在物流中,倉(cāng)庫(kù)機(jī)器人使用RL進(jìn)行更有效的選擇和排序。在醫(yī)療保健中,機(jī)器人手術(shù)系統(tǒng)使用RL適應(yīng)和完善程序。 RL在適應(yīng)性和精度很重要的環(huán)境中效果很好。
游戲是RL的測(cè)試場(chǎng)。深度強(qiáng)化學(xué)習(xí)創(chuàng)造了可以擊敗人類(lèi)對(duì)手的AI對(duì)手。接受了RL算法訓(xùn)練的Alphago擊敗了世界上最好的人類(lèi)GO球員。 Openai的Dota 2機(jī)器人和Atari比賽的RL培訓(xùn)代理也擊敗了該領(lǐng)域的頂級(jí)人類(lèi)。
自動(dòng)駕駛汽車(chē)使用強(qiáng)化學(xué)習(xí)算法以及監(jiān)督和無(wú)監(jiān)督的學(xué)習(xí)算法來(lái)適應(yīng)其駕駛政策。通過(guò)模擬數(shù)以百萬(wàn)計(jì)的駕駛場(chǎng)景,RL代理使用機(jī)器學(xué)習(xí)來(lái)瀏覽道路,避免障礙并適應(yīng)意外的條件。 RL允許自動(dòng)駕駛汽車(chē)做出一秒鐘的決定,以確保乘客安全。
RL用于優(yōu)化金融中的投資組合,在此尋找圖案以提高回報(bào)率。電子商務(wù)和流媒體平臺(tái)中的推薦系統(tǒng)使用RL來(lái)提出個(gè)性化建議并增加用戶(hù)參與度。
RL解決了動(dòng)態(tài)行業(yè)的問(wèn)題。無(wú)監(jiān)督的培訓(xùn)通過(guò)從未標(biāo)記的數(shù)據(jù)中提取見(jiàn)解來(lái)補(bǔ)充RL。隨著RL變得更好,它將進(jìn)入更復(fù)雜的域。
盡管增強(qiáng)學(xué)習(xí)很棒,但并非沒(méi)有問(wèn)題。從效率到安全,在RL算法能夠充分發(fā)揮潛力之前,有幾個(gè)障礙要克服。
一個(gè)大問(wèn)題是RL需要多少數(shù)據(jù)。強(qiáng)化學(xué)習(xí)者在模擬環(huán)境中需要數(shù)百萬(wàn)個(gè)互動(dòng)才能找到最佳策略。在現(xiàn)實(shí)世界中獲得那么多培訓(xùn)數(shù)據(jù)是昂貴或不可能的。對(duì)于數(shù)據(jù)有限的應(yīng)用,這種效率低使RL不切實(shí)際。
縮放RL對(duì)于更大的問(wèn)題需要大量的計(jì)算能力。深RL需要強(qiáng)大的硬件和大量?jī)?nèi)存來(lái)處理大數(shù)據(jù)集。具有深度神經(jīng)網(wǎng)絡(luò)的培訓(xùn)代理既昂貴又復(fù)雜。
硬件:對(duì)于并行處理,RL需要高端GPU或云資源。
內(nèi)存:RL需要大量?jī)?nèi)存來(lái)存儲(chǔ)迭代培訓(xùn)帶來(lái)的大量數(shù)據(jù)。
成本:培訓(xùn)RL模型可能很昂貴,尤其是在工業(yè)規(guī)模上。
如果RL算法的獎(jiǎng)勵(lì)功能無(wú)法正確設(shè)計(jì),則代理可以發(fā)展出不良的,意外的行為。一些RL代理以意想不到的方式利用了獎(jiǎng)勵(lì)結(jié)構(gòu)。關(guān)于RL系統(tǒng)做出生死決定的道德問(wèn)題,例如醫(yī)療保健或自動(dòng)駕駛汽車(chē)。
使用深度學(xué)習(xí)的RL算法可以是黑匣子。這類(lèi)似于無(wú)監(jiān)督的學(xué)習(xí)中的問(wèn)題,在該學(xué)習(xí)中,模式檢測(cè)背后的推理也不透明。這使調(diào)試,優(yōu)化和監(jiān)管合規(guī)性更加困難。提高模型透明度是一個(gè)持續(xù)的挑戰(zhàn)。
盡管面臨挑戰(zhàn),但RL研究正在通過(guò)更好的采樣方法,更有效的算法和更好的工具來(lái)解釋事物的工作原理。新的機(jī)器學(xué)習(xí)解決方案將使RL對(duì)于現(xiàn)實(shí)世界的使用更加實(shí)用。
增強(qiáng)學(xué)習(xí)(RL)正在快速移動(dòng)。新技術(shù)正在改變AI的學(xué)習(xí)和適應(yīng)方式。這些,加上RL改變行業(yè)的潛力,將解決更復(fù)雜的現(xiàn)實(shí)世界問(wèn)題。
RL通過(guò)與其他機(jī)器學(xué)習(xí)領(lǐng)域結(jié)合而超越:
自然語(yǔ)言處理:RL使對(duì)話(huà)代理和AI系統(tǒng)更好地理解和響應(yīng)人類(lèi)的投入。
多代理系統(tǒng):RL支持多個(gè)代理相互作用的協(xié)作學(xué)習(xí),例如流量管理或群體機(jī)器人技術(shù)。
元學(xué)習(xí):RL可以使經(jīng)紀(jì)人學(xué)習(xí)速度更快,更快,更通用。
有效的算法:較小的組織現(xiàn)在可以將RL與更敏捷的系統(tǒng)一起使用。
RL準(zhǔn)備破壞許多行業(yè):
醫(yī)療保健:醫(yī)院的個(gè)性化治療計(jì)劃和日程安排。
財(cái)務(wù):實(shí)時(shí)投資組合優(yōu)化和欺詐檢測(cè)。
制造:自主裝配線和預(yù)測(cè)性維護(hù)。
能源:平衡功率網(wǎng)格的供求,以實(shí)現(xiàn)可持續(xù)性。
運(yùn)輸:通過(guò)RL模擬更明智的物流和流量管理。
這些將是AI量表創(chuàng)新的基礎(chǔ)。
強(qiáng)化學(xué)習(xí)有六個(gè)組成部分:代理,環(huán)境,國(guó)家,行動(dòng),獎(jiǎng)勵(lì)和政策。代理根據(jù)環(huán)境的當(dāng)前狀態(tài)決定。每個(gè)動(dòng)作都會(huì)導(dǎo)致一個(gè)新的狀態(tài)和指導(dǎo)代理商的機(jī)器學(xué)習(xí)過(guò)程的獎(jiǎng)勵(lì)。政策決定了代理商使用的策略選擇行動(dòng),將短期獎(jiǎng)勵(lì)與長(zhǎng)期收益之間取得平衡。這些組件共同形成了一個(gè)框架,RL算法可以通過(guò)交互來(lái)學(xué)習(xí)和適應(yīng)。
強(qiáng)化學(xué)習(xí)和監(jiān)督學(xué)習(xí)是不同的。監(jiān)督學(xué)習(xí)使用標(biāo)記的數(shù)據(jù)將輸入映射到輸出。 RL算法通過(guò)與環(huán)境互動(dòng)來(lái)學(xué)習(xí)。例如,游戲RL算法一開(kāi)始不知道正確的動(dòng)作。他們通過(guò)反復(fù)試驗(yàn)學(xué)習(xí),隨著時(shí)間的推移最大化獎(jiǎng)勵(lì)。
RL破壞了游戲,機(jī)器人技術(shù)和醫(yī)療保健等行業(yè)。在游戲中,通過(guò)掌握復(fù)雜策略,RL電力系統(tǒng)和OpenAI五個(gè)五個(gè)勝過(guò)人類(lèi)的表現(xiàn)。自動(dòng)駕駛汽車(chē)使用RL來(lái)優(yōu)化駕駛政策,醫(yī)療保健應(yīng)用包括個(gè)性化治療計(jì)劃和機(jī)器人手術(shù)。
探索正在測(cè)試新的動(dòng)作以找到更好的獎(jiǎng)勵(lì),開(kāi)發(fā)利用現(xiàn)有知識(shí)來(lái)最大化已知的獎(jiǎng)勵(lì)。平衡這些是最佳學(xué)習(xí)的關(guān)鍵。 RL算法像Q學(xué)習(xí)這樣的算法平衡了這一權(quán)衡,以穩(wěn)步改善。
MDP提供了一種結(jié)構(gòu)化方法來(lái)構(gòu)成RL問(wèn)題,定義狀態(tài),行動(dòng)和獎(jiǎng)勵(lì)。 MDP允許諸如近端策略?xún)?yōu)化之類(lèi)的算法來(lái)形式化決策并系統(tǒng)地瀏覽復(fù)雜環(huán)境。
最常用的RL算法是Q學(xué)習(xí),深Q-NETWORKS(DQNS)和近端策略?xún)?yōu)化(PPO)。 Q學(xué)習(xí)使用Q-Table來(lái)構(gòu)建價(jià)值功能,DQN使用神經(jīng)網(wǎng)絡(luò)處理大型狀態(tài)空間。 PPO通過(guò)限制策略更新來(lái)穩(wěn)定學(xué)習(xí)。
可伸縮性,安全性和解釋性。例如,Deep RL在計(jì)算上很昂貴,并且所有人都無(wú)法訪問(wèn),獎(jiǎng)勵(lì)設(shè)計(jì)差會(huì)導(dǎo)致意外行為。
通過(guò)將RL與神經(jīng)網(wǎng)絡(luò)相結(jié)合,可以處理高維數(shù)據(jù)。 Alphazero是RL在游戲和復(fù)雜問(wèn)題中可以做什么的概念證明。
AI開(kāi)發(fā)創(chuàng)新(例如政策梯度方法和多代理RL)正在擴(kuò)展RL功能。研究人員正在研究有效的采樣技術(shù),并將RL集成在跨行業(yè)的機(jī)器學(xué)習(xí)系統(tǒng)中。
文章均為京上云專(zhuān)業(yè)成都軟件開(kāi)發(fā)公司,專(zhuān)注于成都軟件開(kāi)發(fā)服務(wù)原創(chuàng),轉(zhuǎn)載請(qǐng)注明來(lái)自http://hyd365.cn/news/3792.html