深度強(qiáng)化學(xué)習(xí)
深度強(qiáng)化學(xué)習(xí)的相關(guān)文獻(xiàn)在2016年到2023年內(nèi)共計2558篇,主要集中在自動化技術(shù)、計算機(jī)技術(shù)、無線電電子學(xué)、電信技術(shù)、電工技術(shù)
等領(lǐng)域,其中期刊論文774篇、會議論文1篇、專利文獻(xiàn)247641篇;相關(guān)期刊326種,包括系統(tǒng)工程與電子技術(shù)、電力系統(tǒng)自動化、電子與信息學(xué)報等;
相關(guān)會議1種,包括2017信息通信網(wǎng)技術(shù)業(yè)務(wù)發(fā)展研討會等;深度強(qiáng)化學(xué)習(xí)的相關(guān)文獻(xiàn)由7262位作者貢獻(xiàn),包括陳晉音、王雪柯、唐倫等。
深度強(qiáng)化學(xué)習(xí)—發(fā)文量
總計:248416篇
深度強(qiáng)化學(xué)習(xí)—發(fā)文趨勢圖
深度強(qiáng)化學(xué)習(xí)
-研究學(xué)者
陳晉音
王雪柯
唐倫
李輝
章燕
陳希亮
李貽斌
胡書隆
陳前斌
余亮
趙楠
吳遠(yuǎn)
唐小林
岳東
李佳承
李鵬
胡曉松
錢麗萍
黃亮
傅啟明
劉全
周杰
陳建平
魯繼文
劉華平
孫富春
秦文虎
鄧忠偉
黃韜
劉滿祿
劉聰
劉韻潔
孫立博
曹雷
李陽
王新迎
相曉嘉
竇春霞
翟金鳳
陳佳信
馮旭
劉澤華
劉洋
張偉
李駿
王博文
王菖
程光權(quán)
范嘉駿
裴一揚(yáng)
深度強(qiáng)化學(xué)習(xí)
-相關(guān)期刊
深度強(qiáng)化學(xué)習(xí)
-相關(guān)會議
排序:
按相關(guān)性
按時間降序
按時間升序
黃萬偉;
鄭向雨;
張超欽;
王蘇南;
張校輝
摘要:
針對現(xiàn)有智能路由算法收斂速度慢、平均時延高、帶寬利用率低等問題,提出了一種基于深度強(qiáng)化學(xué)習(xí) (DRL)的多路徑智能路由算法RDPG-Route。該算法采用循環(huán)確定性策略梯度(RDPG)作為訓(xùn)練框架,引入長短期記憶網(wǎng)絡(luò)(LSTM)作為神經(jīng)網(wǎng)絡(luò),基于RDPG處理高緯度問題的算法優(yōu)勢,以及LSTM循環(huán)核中記憶體的存儲能力,將動態(tài)變化的網(wǎng)絡(luò)狀態(tài)輸入神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。算法訓(xùn)練收斂后,將神經(jīng)網(wǎng)絡(luò)輸出的動作值作為網(wǎng)絡(luò)鏈路權(quán)重,基于多路徑路由策略進(jìn)行流量劃分,以實(shí)現(xiàn)網(wǎng)絡(luò)路由的智能動態(tài)調(diào)整。最后,將RDPG-Route路由算法分別與ECMP、DRL-TE和DRL-R-DDPG路由算法進(jìn)行對比。結(jié)果表明,RDPG-Route具有較好的收斂性和有效性,相比于其他智能路由算法至少降低了7.2%平均端到端時延,提高了6.5%吞吐量,減少了8.9%丟包率和6.3%的最大鏈路利用率。
趙春領(lǐng);
吳化騰
摘要:
插電式柴電混合動力汽車具有多種工作模式,發(fā)動機(jī)頻繁啟停過程中會導(dǎo)致油耗增加和SCR催化器的效率降低,導(dǎo)致排放惡劣.以P2型插電式柴電混合動力汽車為研究對象,建立所需動力系統(tǒng)模型,將深度強(qiáng)化學(xué)習(xí) (Deep Reinforcement Learning,DRL)應(yīng)用到插電式混合動力汽車能量管理中.采用TD3算法對PHEV油耗和排放進(jìn)行綜合優(yōu)化,并將結(jié)果與動態(tài)規(guī)劃算法(Dynamic Programming,DP)進(jìn)行對比分析,結(jié)果表明:基于TD3算法的控制策略的油耗和NO_(X)排放量分別為2.477 L/km、0.2023 g/km,分別達(dá)到DP控制策略的94.1%和89.4%的控制效果,證明了提出的控制策略的有效性.
賀雪梅;
匡胤;
楊志鵬;
楊亞喬
摘要:
針對現(xiàn)有的AGV在大規(guī)模未知復(fù)雜環(huán)境中進(jìn)行自主導(dǎo)航配送的問題,基于深度強(qiáng)化學(xué)習(xí) 完成了AGV智能導(dǎo)航系統(tǒng)設(shè)計。首先,結(jié)合傳感器對周圍的障礙物進(jìn)行探測感知,利用DDPG(deep deterministic policy gradient)算法實(shí)現(xiàn)AGV小車從環(huán)境的感知輸入到動作的直接輸出控制,幫助AGV完成自主導(dǎo)航和避障任務(wù)。此外,針對訓(xùn)練樣本易受環(huán)境干擾的問題,提出了一種新穎的DL(disturb learning)-DDPG算法,通過對學(xué)習(xí)樣本中相關(guān)數(shù)據(jù)進(jìn)行高斯噪聲預(yù)處理,幫助智能體適應(yīng)噪聲狀態(tài)下的訓(xùn)練環(huán)境,提升了AGV在真實(shí)環(huán)境中的魯棒性。仿真實(shí)驗表明,經(jīng)改進(jìn)后的DL-DDPG算法能夠為AGV導(dǎo)航系統(tǒng)提供更高效的在線決策能力,使AGV小車完成自主導(dǎo)航與智能控制。
歐陽卓;
周思源;
呂勇;
譚國平;
張悅;
項亮亮
摘要:
利用深度強(qiáng)化學(xué)習(xí) 技術(shù)實(shí)現(xiàn)無信號燈交叉路口車輛控制是智能交通領(lǐng)域的研究熱點(diǎn)?,F(xiàn)有研究存在無法適應(yīng)自動駕駛車輛數(shù)量動態(tài)變化、訓(xùn)練收斂慢、訓(xùn)練結(jié)果只能達(dá)到局部最優(yōu)等問題。文中研究在無信號燈交叉路口,自動駕駛車輛如何利用分布式深度強(qiáng)化方法來提升路口的通行效率。首先,提出了一種高效的獎勵函數(shù),將分布式強(qiáng)化學(xué)習(xí)算法應(yīng)用到無信號燈交叉路口場景中,使得車輛即使無法獲取整個交叉路口的狀態(tài)信息,只依賴局部信息也能有效提升交叉路口的通行效率。然后,針對開放交叉路口場景中強(qiáng)化學(xué)習(xí)方法訓(xùn)練效率低的問題,使用了遷移學(xué)習(xí)的方法,將封閉的8字型場景中訓(xùn)練好的策略作為暖啟動,在無信號燈交叉路口場景繼續(xù)訓(xùn)練,提升了訓(xùn)練效率。最后,提出了一種可以適應(yīng)所有自動駕駛車輛比例的策略,此策略在任意比例自動駕駛車輛的場景中均可提升交叉路口的通行效率。在仿真平臺Flow上對TD3強(qiáng)化學(xué)習(xí)算法進(jìn)行了驗證,實(shí)驗結(jié)果表明,改進(jìn)后的算法訓(xùn)練收斂快,能適應(yīng)自動駕駛車輛比例的動態(tài)變化,能有效提升路口的通行效率。
李鵬;
易修文;
齊德康;
段哲文;
李天瑞
摘要:
在中國北方,冬季樓宇集中供暖采用的策略通常為氣候補(bǔ)償器,但是該策略嚴(yán)重依賴人工經(jīng)驗,調(diào)節(jié)相對粗放,如何優(yōu)化供熱控制策略對于保持樓宇室溫的穩(wěn)定舒適十分重要。對此,提出了一種基于深度學(xué)習(xí)的供熱策略優(yōu)化方法,通過學(xué)習(xí)歷史真實(shí)數(shù)據(jù)信息從而對原始控制策略進(jìn)行優(yōu)化。首先以學(xué)習(xí)室內(nèi)溫度變化的熱力學(xué)規(guī)律為目標(biāo),提出了一種深度多時差分網(wǎng)絡(luò)MTDN(Multiple Time Difference Network)來對下一時刻的室溫進(jìn)行預(yù)測,該網(wǎng)絡(luò)不僅準(zhǔn)確率高,而且符合物理規(guī)律;然后將MTDN當(dāng)成模擬器,以表征人體熱反應(yīng)的評價指標(biāo)作為相關(guān)獎勵項,使用基于最大熵強(qiáng)化學(xué)習(xí)思想的SAC(Soft Actor Critic)算法作為策略優(yōu)化器與之交互訓(xùn)練,從而學(xué)習(xí)到一個穩(wěn)定優(yōu)秀的供熱控制策略;最后基于天津某個換熱站的真實(shí)數(shù)據(jù),設(shè)計相關(guān)實(shí)驗分別對模擬器預(yù)測能力和策略優(yōu)化器策略控制能力進(jìn)行評估。驗證得出:相比其他類型的預(yù)測模擬器,該模擬器不僅預(yù)測精度高,并且符合物理規(guī)律;同時,相比原始策略,該策略優(yōu)化器所學(xué)的策略在隨機(jī)采樣的多個時段內(nèi)均可以保證室內(nèi)溫度更加穩(wěn)定舒適。
張先超;
趙耀;
葉海軍;
樊銳
摘要:
針對無線網(wǎng)絡(luò)多用戶互相干擾的問題,通過對發(fā)射功率進(jìn)行智能控制,實(shí)現(xiàn)干擾管理,保證多用戶通信服務(wù)質(zhì)量。首先,考慮復(fù)雜動態(tài)無線信道環(huán)境,建立以無線通信系統(tǒng)加權(quán)數(shù)據(jù)速率最大化為目標(biāo)的發(fā)射功率控制模型。其次,設(shè)計以深度強(qiáng)化學(xué)習(xí) "行動器-評判器"為基本架構(gòu)的智能發(fā)射功率控制算法,縮短功率控制決策時間。仿真驗證表明,所提算法收斂速度快,在10對收發(fā)機(jī)場景下,計算時間縮短到傳統(tǒng)最優(yōu)算法的1/4。
馬東方;
陳曦;
吳曉東;
金盛
摘要:
交通擁堵已成為很多大中城市普遍存在的社會問題。信號控制作為緩堵保暢的重要措施之一,愈發(fā)受到社會關(guān)注。信號優(yōu)化手段可分為模型驅(qū)動和數(shù)據(jù)驅(qū)動兩類,且隨著交通大數(shù)據(jù)的不斷充實(shí),基于強(qiáng)化學(xué)習(xí)的數(shù)據(jù)驅(qū)動方法日益成為新興發(fā)展方向。然而,現(xiàn)有數(shù)據(jù)驅(qū)動類研究主要偏重于決策模型設(shè)計,缺乏對智能體結(jié)構(gòu)的探討;同時,在多路口協(xié)同方面多采用分布式策略,忽略了智能體之間信息交互,無法保障區(qū)域?qū)用娴恼w最優(yōu)性。為此,本文以干線信號為對象,構(gòu)建一種多智能體混合式協(xié)同決策的信號優(yōu)化方法。首先,針對交通狀態(tài)的多樣性、異構(gòu)性及數(shù)據(jù)不均衡性,設(shè)計分布訓(xùn)練-分區(qū)記憶的單智能體決策模型,并優(yōu)化狀態(tài)空間和回報函數(shù),界定單路口控制的最佳方案;其次,融合分布式和集中式學(xué)習(xí)的模型優(yōu)勢設(shè)計多智能體交互方法,在單路口分布式控制的基礎(chǔ)上,設(shè)置中心智能體評價局部智能體的決策行為并反饋附加回報以調(diào)整局部智能體的決策模型,實(shí)現(xiàn)干線多信號的協(xié)同運(yùn)行。最后,搭建仿真平臺完成效果測試與算法對比。結(jié)果表明:新方法與獨(dú)立優(yōu)化和分布式協(xié)同相比,在支路交通流基本不受影響的前提下,干線停車次數(shù)分別降低了14.8%和13.6%,具有更好的控制效果。
何祁棟
摘要:
機(jī)器學(xué)習(xí)廣泛應(yīng)用于股票交易決策中。如何在交易過程中獲得有效的市場信息,實(shí)現(xiàn)利益最大化和風(fēng)險最小化,是一個值得長期研究的話題?;?font color="red">深度強(qiáng)化學(xué)習(xí)的傳統(tǒng)交易模型無法提前識別劇烈的股價波動,導(dǎo)致投資收益不穩(wěn)定。本文提出了一種結(jié)合趨勢的深度強(qiáng)化學(xué)習(xí) 股票交易模型,選取根據(jù)趨勢指標(biāo)RSI指數(shù)調(diào)整后特定條件下的利潤作為獎勵函數(shù),模型能有效識別股價波動風(fēng)險,獲得穩(wěn)定收益增長。實(shí)驗選取中國股市的3只股票進(jìn)行模擬交易,與對照組相比,本文結(jié)合趨勢的深度強(qiáng)化學(xué)習(xí) 模型訓(xùn)練良好,在實(shí)驗期間的平均年回報更高,年波動率更低,且夏普比率更好。通過實(shí)驗數(shù)據(jù)驗證了模型的穩(wěn)定性和有效性。
謝亞楠;
周森鑫
摘要:
隨著城鎮(zhèn)化建設(shè)的快速推進(jìn),園林工程項目的規(guī)模以及復(fù)雜程度也在日益增長,然而傳統(tǒng)計算工程項目關(guān)鍵路線的方法由于自身的局限性,很難在規(guī)模大的項目中找出最優(yōu)路線。因此,在工程網(wǎng)絡(luò)圖的基礎(chǔ)上,提出基于DQN(Deep Q Network)的工程進(jìn)度管理方法,通過構(gòu)建神經(jīng)網(wǎng)絡(luò),將大量的歷史數(shù)據(jù)輸入進(jìn)去,讓計算機(jī)來計算關(guān)鍵線路,進(jìn)而預(yù)測施工周期,并以某公園為例進(jìn)行實(shí)驗仿真分析。實(shí)驗表明此算法在應(yīng)對規(guī)模較大的項目時,計算關(guān)鍵線路更加準(zhǔn)確,效率也更高,可以幫助施工單位快速找到最優(yōu)策略,有效減少由于不確定性因素造成的工期延誤以及資金的損失。
桓琦;
謝小權(quán);
郭敏;
曾穎明
摘要:
針對基于深度強(qiáng)化學(xué)習(xí) (deep reinforcement learning, DRL)的激光導(dǎo)航系統(tǒng)的安全性進(jìn)行研究,首次提出了對抗地圖的概念,并在此基礎(chǔ)上提出了一種物理對抗攻擊方法.該方法使用對抗樣本生成算法計算激光測距傳感器上的對抗擾動,然后修改原始地圖實(shí)現(xiàn)這些擾動,得到對抗地圖.對抗地圖可以在某個特定區(qū)域誘導(dǎo)智能體偏離最優(yōu)路徑,最終使機(jī)器人導(dǎo)航失敗.在物理仿真實(shí)驗中,對比了智能體在多個原始地圖和對抗地圖的導(dǎo)航結(jié)果,證明了對抗地圖攻擊方法的有效性,指出了目前DRL技術(shù)應(yīng)用在導(dǎo)航系統(tǒng)上存在的安全隱患.
HOU Yubing;
侯玉兵
《2017信息通信網(wǎng)技術(shù)業(yè)務(wù)發(fā)展研討會》
| 2017年
摘要:
近年來人工智能正在取得的重大進(jìn)展,特別是由于擅長發(fā)現(xiàn)高維數(shù)據(jù)中的復(fù)雜結(jié)構(gòu),深度學(xué)習(xí)技術(shù)正成為目前發(fā)展的前沿和研究熱點(diǎn),國內(nèi)外對這一領(lǐng)域越來越重視.深度學(xué)習(xí)的理論研究基本處于起步階段,應(yīng)用領(lǐng)域已顯現(xiàn)出巨大能量,正被應(yīng)用于科學(xué)、商業(yè)和政府等領(lǐng)域.本報告圍繞深度學(xué)習(xí)密切相關(guān)的卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和深度強(qiáng)化學(xué)習(xí) 三個主要方面,介紹了近年來國內(nèi)外的主要研究進(jìn)展,分析了國際學(xué)科發(fā)展趨勢和研究特色,可以預(yù)見未來深度學(xué)習(xí)模型將廣泛地應(yīng)用于各個領(lǐng)域,并將產(chǎn)生更深遠(yuǎn)的影響.