您現(xiàn)在的位置：首頁> 研究主題> 深度強(qiáng)化學(xué)習(xí)

深度強(qiáng)化學(xué)習(xí)

深度強(qiáng)化學(xué)習(xí)的相關(guān)文獻(xiàn)在2016年到2023年內(nèi)共計2558篇，主要集中在自動化技術(shù)、計算機(jī)技術(shù)、無線電電子學(xué)、電信技術(shù)、電工技術(shù) 等領(lǐng)域，其中期刊論文774篇、會議論文1篇、專利文獻(xiàn)247641篇；相關(guān)期刊326種，包括系統(tǒng)工程與電子技術(shù)、電力系統(tǒng)自動化、電子與信息學(xué)報等；相關(guān)會議1種，包括2017信息通信網(wǎng)技術(shù)業(yè)務(wù)發(fā)展研討會等；深度強(qiáng)化學(xué)習(xí)的相關(guān)文獻(xiàn)由7262位作者貢獻(xiàn)，包括陳晉音、王雪柯、唐倫等。

深度強(qiáng)化學(xué)習(xí)—發(fā)文量

期刊論文>

論文：774篇占比：0.31%

會議論文>

論文：1篇占比：0.00%

專利文獻(xiàn)>

論文：247641篇占比：99.69%

總計：248416篇

深度強(qiáng)化學(xué)習(xí)—發(fā)文趨勢圖

深度強(qiáng)化學(xué)習(xí)
-研究學(xué)者

陳晉音
王雪柯
唐倫
李輝
章燕
陳希亮
李貽斌
胡書隆
陳前斌
余亮
趙楠
吳遠(yuǎn)
唐小林
岳東
李佳承
李鵬
胡曉松
錢麗萍
黃亮
傅啟明
劉全
周杰
陳建平
魯繼文
劉華平
孫富春
秦文虎
鄧忠偉
黃韜
劉滿祿
劉聰
劉韻潔
孫立博
曹雷
李陽
王新迎
相曉嘉
竇春霞
翟金鳳
陳佳信
馮旭
劉澤華
劉洋
張偉
李駿
王博文
王菖
程光權(quán)
范嘉駿
裴一揚(yáng)

深度強(qiáng)化學(xué)習(xí)
-相關(guān)主題

深度強(qiáng)化學(xué)習(xí)
-相關(guān)期刊

深度強(qiáng)化學(xué)習(xí)
-相關(guān)會議

2017信息通信網(wǎng)技術(shù)業(yè)務(wù)發(fā)展研討會

期刊論文
會議論文
專利文獻(xiàn)

搜索

排序：

學(xué)科

年份

2023
(19)
2022
(1052)
2021
(767)
2020
(125)
2019
(79)
2018
(30)
2017
(13)
2016
(3)

期刊

收錄數(shù)據(jù)庫

作者

陳晉音
(20)
王雪柯
(18)
唐倫
(16)
李輝
(16)
章燕
(16)
陳希亮
(16)
李貽斌
(14)
胡書隆
(14)
陳前斌
(14)
余亮
(13)
趙楠
(13)
吳遠(yuǎn)
(12)
唐小林
(12)
岳東
(12)
李佳承
(12)
李鵬
(12)
胡曉松
(12)
錢麗萍
(12)
黃亮
(12)
傅啟明
(11)
劉全
(11)
周杰
(11)
陳建平
(11)
魯繼文
(11)
劉華平
(10)
孫富春
(10)
秦文虎
(10)
鄧忠偉
(10)
黃韜
(10)
劉滿祿
(9)
劉聰
(9)
劉韻潔
(9)
孫立博
(9)
曹雷
(9)
李陽
(9)
王新迎
(9)
相曉嘉
(9)
竇春霞
(9)
翟金鳳
(9)
陳佳信
(9)
馮旭
(8)
劉澤華
(8)
劉洋
(8)
張偉
(8)
李駿
(8)
王博文
(8)
王菖
(8)
程光權(quán)
(8)
范嘉駿
(8)
裴一揚(yáng)
(8)

關(guān)鍵詞

1. 基于深度強(qiáng)化學(xué)習(xí)的智能路由技術(shù)研究
- 黃萬偉；鄭向雨；張超欽；王蘇南；張校輝
- 摘要：針對現(xiàn)有智能路由算法收斂速度慢、平均時延高、帶寬利用率低等問題,提出了一種基于深度強(qiáng)化學(xué)習(xí)(DRL)的多路徑智能路由算法RDPG-Route。該算法采用循環(huán)確定性策略梯度(RDPG)作為訓(xùn)練框架,引入長短期記憶網(wǎng)絡(luò)(LSTM)作為神經(jīng)網(wǎng)絡(luò),基于RDPG處理高緯度問題的算法優(yōu)勢,以及LSTM循環(huán)核中記憶體的存儲能力,將動態(tài)變化的網(wǎng)絡(luò)狀態(tài)輸入神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。算法訓(xùn)練收斂后,將神經(jīng)網(wǎng)絡(luò)輸出的動作值作為網(wǎng)絡(luò)鏈路權(quán)重,基于多路徑路由策略進(jìn)行流量劃分,以實(shí)現(xiàn)網(wǎng)絡(luò)路由的智能動態(tài)調(diào)整。最后,將RDPG-Route路由算法分別與ECMP、DRL-TE和DRL-R-DDPG路由算法進(jìn)行對比。結(jié)果表明,RDPG-Route具有較好的收斂性和有效性,相比于其他智能路由算法至少降低了7.2%平均端到端時延,提高了6.5%吞吐量,減少了8.9%丟包率和6.3%的最大鏈路利用率。
2. 基于DRL的PHEV綜合優(yōu)化控制策略
- 趙春領(lǐng)；吳化騰
- 摘要：插電式柴電混合動力汽車具有多種工作模式,發(fā)動機(jī)頻繁啟停過程中會導(dǎo)致油耗增加和SCR催化器的效率降低,導(dǎo)致排放惡劣.以P2型插電式柴電混合動力汽車為研究對象,建立所需動力系統(tǒng)模型,將深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)應(yīng)用到插電式混合動力汽車能量管理中.采用TD3算法對PHEV油耗和排放進(jìn)行綜合優(yōu)化,并將結(jié)果與動態(tài)規(guī)劃算法(Dynamic Programming,DP)進(jìn)行對比分析,結(jié)果表明:基于TD3算法的控制策略的油耗和NO_(X)排放量分別為2.477 L/km、0.2023 g/km,分別達(dá)到DP控制策略的94.1%和89.4%的控制效果,證明了提出的控制策略的有效性.
3. 基于深度強(qiáng)化學(xué)習(xí)的AGV智能導(dǎo)航系統(tǒng)設(shè)計
- 賀雪梅；匡胤；楊志鵬；楊亞喬
- 摘要：針對現(xiàn)有的AGV在大規(guī)模未知復(fù)雜環(huán)境中進(jìn)行自主導(dǎo)航配送的問題,基于深度強(qiáng)化學(xué)習(xí)完成了AGV智能導(dǎo)航系統(tǒng)設(shè)計。首先,結(jié)合傳感器對周圍的障礙物進(jìn)行探測感知,利用DDPG(deep deterministic policy gradient)算法實(shí)現(xiàn)AGV小車從環(huán)境的感知輸入到動作的直接輸出控制,幫助AGV完成自主導(dǎo)航和避障任務(wù)。此外,針對訓(xùn)練樣本易受環(huán)境干擾的問題,提出了一種新穎的DL(disturb learning)-DDPG算法,通過對學(xué)習(xí)樣本中相關(guān)數(shù)據(jù)進(jìn)行高斯噪聲預(yù)處理,幫助智能體適應(yīng)噪聲狀態(tài)下的訓(xùn)練環(huán)境,提升了AGV在真實(shí)環(huán)境中的魯棒性。仿真實(shí)驗表明,經(jīng)改進(jìn)后的DL-DDPG算法能夠為AGV導(dǎo)航系統(tǒng)提供更高效的在線決策能力,使AGV小車完成自主導(dǎo)航與智能控制。
4. 基于深度強(qiáng)化學(xué)習(xí)的無信號燈交叉路口車輛控制
- 歐陽卓；周思源；呂勇；譚國平；張悅；項亮亮
- 摘要：利用深度強(qiáng)化學(xué)習(xí)技術(shù)實(shí)現(xiàn)無信號燈交叉路口車輛控制是智能交通領(lǐng)域的研究熱點(diǎn)?，F(xiàn)有研究存在無法適應(yīng)自動駕駛車輛數(shù)量動態(tài)變化、訓(xùn)練收斂慢、訓(xùn)練結(jié)果只能達(dá)到局部最優(yōu)等問題。文中研究在無信號燈交叉路口,自動駕駛車輛如何利用分布式深度強(qiáng)化方法來提升路口的通行效率。首先,提出了一種高效的獎勵函數(shù),將分布式強(qiáng)化學(xué)習(xí)算法應(yīng)用到無信號燈交叉路口場景中,使得車輛即使無法獲取整個交叉路口的狀態(tài)信息,只依賴局部信息也能有效提升交叉路口的通行效率。然后,針對開放交叉路口場景中強(qiáng)化學(xué)習(xí)方法訓(xùn)練效率低的問題,使用了遷移學(xué)習(xí)的方法,將封閉的8字型場景中訓(xùn)練好的策略作為暖啟動,在無信號燈交叉路口場景繼續(xù)訓(xùn)練,提升了訓(xùn)練效率。最后,提出了一種可以適應(yīng)所有自動駕駛車輛比例的策略,此策略在任意比例自動駕駛車輛的場景中均可提升交叉路口的通行效率。在仿真平臺Flow上對TD3強(qiáng)化學(xué)習(xí)算法進(jìn)行了驗證,實(shí)驗結(jié)果表明,改進(jìn)后的算法訓(xùn)練收斂快,能適應(yīng)自動駕駛車輛比例的動態(tài)變化,能有效提升路口的通行效率。
5. 一種基于深度學(xué)習(xí)的供熱策略優(yōu)化方法
- 李鵬；易修文；齊德康；段哲文；李天瑞
- 摘要：在中國北方,冬季樓宇集中供暖采用的策略通常為氣候補(bǔ)償器,但是該策略嚴(yán)重依賴人工經(jīng)驗,調(diào)節(jié)相對粗放,如何優(yōu)化供熱控制策略對于保持樓宇室溫的穩(wěn)定舒適十分重要。對此,提出了一種基于深度學(xué)習(xí)的供熱策略優(yōu)化方法,通過學(xué)習(xí)歷史真實(shí)數(shù)據(jù)信息從而對原始控制策略進(jìn)行優(yōu)化。首先以學(xué)習(xí)室內(nèi)溫度變化的熱力學(xué)規(guī)律為目標(biāo),提出了一種深度多時差分網(wǎng)絡(luò)MTDN(Multiple Time Difference Network)來對下一時刻的室溫進(jìn)行預(yù)測,該網(wǎng)絡(luò)不僅準(zhǔn)確率高,而且符合物理規(guī)律;然后將MTDN當(dāng)成模擬器,以表征人體熱反應(yīng)的評價指標(biāo)作為相關(guān)獎勵項,使用基于最大熵強(qiáng)化學(xué)習(xí)思想的SAC(Soft Actor Critic)算法作為策略優(yōu)化器與之交互訓(xùn)練,從而學(xué)習(xí)到一個穩(wěn)定優(yōu)秀的供熱控制策略;最后基于天津某個換熱站的真實(shí)數(shù)據(jù),設(shè)計相關(guān)實(shí)驗分別對模擬器預(yù)測能力和策略優(yōu)化器策略控制能力進(jìn)行評估。驗證得出:相比其他類型的預(yù)測模擬器,該模擬器不僅預(yù)測精度高,并且符合物理規(guī)律;同時,相比原始策略,該策略優(yōu)化器所學(xué)的策略在隨機(jī)采樣的多個時段內(nèi)均可以保證室內(nèi)溫度更加穩(wěn)定舒適。
6. 無線網(wǎng)絡(luò)多用戶干擾下智能發(fā)射功率控制算法
- 張先超；趙耀；葉海軍；樊銳
- 摘要：針對無線網(wǎng)絡(luò)多用戶互相干擾的問題,通過對發(fā)射功率進(jìn)行智能控制,實(shí)現(xiàn)干擾管理,保證多用戶通信服務(wù)質(zhì)量。首先,考慮復(fù)雜動態(tài)無線信道環(huán)境,建立以無線通信系統(tǒng)加權(quán)數(shù)據(jù)速率最大化為目標(biāo)的發(fā)射功率控制模型。其次,設(shè)計以深度強(qiáng)化學(xué)習(xí)"行動器-評判器"為基本架構(gòu)的智能發(fā)射功率控制算法,縮短功率控制決策時間。仿真驗證表明,所提算法收斂速度快,在10對收發(fā)機(jī)場景下,計算時間縮短到傳統(tǒng)最優(yōu)算法的1/4。
7. 基于強(qiáng)化學(xué)習(xí)的干線信號混合協(xié)同優(yōu)化方法
- 馬東方；陳曦；吳曉東；金盛
- 摘要：交通擁堵已成為很多大中城市普遍存在的社會問題。信號控制作為緩堵保暢的重要措施之一,愈發(fā)受到社會關(guān)注。信號優(yōu)化手段可分為模型驅(qū)動和數(shù)據(jù)驅(qū)動兩類,且隨著交通大數(shù)據(jù)的不斷充實(shí),基于強(qiáng)化學(xué)習(xí)的數(shù)據(jù)驅(qū)動方法日益成為新興發(fā)展方向。然而,現(xiàn)有數(shù)據(jù)驅(qū)動類研究主要偏重于決策模型設(shè)計,缺乏對智能體結(jié)構(gòu)的探討;同時,在多路口協(xié)同方面多采用分布式策略,忽略了智能體之間信息交互,無法保障區(qū)域?qū)用娴恼w最優(yōu)性。為此,本文以干線信號為對象,構(gòu)建一種多智能體混合式協(xié)同決策的信號優(yōu)化方法。首先,針對交通狀態(tài)的多樣性、異構(gòu)性及數(shù)據(jù)不均衡性,設(shè)計分布訓(xùn)練-分區(qū)記憶的單智能體決策模型,并優(yōu)化狀態(tài)空間和回報函數(shù),界定單路口控制的最佳方案;其次,融合分布式和集中式學(xué)習(xí)的模型優(yōu)勢設(shè)計多智能體交互方法,在單路口分布式控制的基礎(chǔ)上,設(shè)置中心智能體評價局部智能體的決策行為并反饋附加回報以調(diào)整局部智能體的決策模型,實(shí)現(xiàn)干線多信號的協(xié)同運(yùn)行。最后,搭建仿真平臺完成效果測試與算法對比。結(jié)果表明:新方法與獨(dú)立優(yōu)化和分布式協(xié)同相比,在支路交通流基本不受影響的前提下,干線停車次數(shù)分別降低了14.8%和13.6%,具有更好的控制效果。
8. 結(jié)合趨勢的深度強(qiáng)化學(xué)習(xí)股票交易策略
- 何祁棟
- 摘要：機(jī)器學(xué)習(xí)廣泛應(yīng)用于股票交易決策中。如何在交易過程中獲得有效的市場信息,實(shí)現(xiàn)利益最大化和風(fēng)險最小化,是一個值得長期研究的話題?；?font color="red">深度強(qiáng)化學(xué)習(xí)的傳統(tǒng)交易模型無法提前識別劇烈的股價波動,導(dǎo)致投資收益不穩(wěn)定。本文提出了一種結(jié)合趨勢的深度強(qiáng)化學(xué)習(xí)股票交易模型,選取根據(jù)趨勢指標(biāo)RSI指數(shù)調(diào)整后特定條件下的利潤作為獎勵函數(shù),模型能有效識別股價波動風(fēng)險,獲得穩(wěn)定收益增長。實(shí)驗選取中國股市的3只股票進(jìn)行模擬交易,與對照組相比,本文結(jié)合趨勢的深度強(qiáng)化學(xué)習(xí)模型訓(xùn)練良好,在實(shí)驗期間的平均年回報更高,年波動率更低,且夏普比率更好。通過實(shí)驗數(shù)據(jù)驗證了模型的穩(wěn)定性和有效性。
9. 智能化園林工程進(jìn)度管理方法應(yīng)用研究
- 謝亞楠；周森鑫
- 摘要：隨著城鎮(zhèn)化建設(shè)的快速推進(jìn),園林工程項目的規(guī)模以及復(fù)雜程度也在日益增長,然而傳統(tǒng)計算工程項目關(guān)鍵路線的方法由于自身的局限性,很難在規(guī)模大的項目中找出最優(yōu)路線。因此,在工程網(wǎng)絡(luò)圖的基礎(chǔ)上,提出基于DQN(Deep Q Network)的工程進(jìn)度管理方法,通過構(gòu)建神經(jīng)網(wǎng)絡(luò),將大量的歷史數(shù)據(jù)輸入進(jìn)去,讓計算機(jī)來計算關(guān)鍵線路,進(jìn)而預(yù)測施工周期,并以某公園為例進(jìn)行實(shí)驗仿真分析。實(shí)驗表明此算法在應(yīng)對規(guī)模較大的項目時,計算關(guān)鍵線路更加準(zhǔn)確,效率也更高,可以幫助施工單位快速找到最優(yōu)策略,有效減少由于不確定性因素造成的工期延誤以及資金的損失。
10. 針對深度強(qiáng)化學(xué)習(xí)導(dǎo)航的物理對抗攻擊方法
- 桓琦；謝小權(quán)；郭敏；曾穎明
- 摘要：針對基于深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning, DRL)的激光導(dǎo)航系統(tǒng)的安全性進(jìn)行研究,首次提出了對抗地圖的概念,并在此基礎(chǔ)上提出了一種物理對抗攻擊方法.該方法使用對抗樣本生成算法計算激光測距傳感器上的對抗擾動,然后修改原始地圖實(shí)現(xiàn)這些擾動,得到對抗地圖.對抗地圖可以在某個特定區(qū)域誘導(dǎo)智能體偏離最優(yōu)路徑,最終使機(jī)器人導(dǎo)航失敗.在物理仿真實(shí)驗中,對比了智能體在多個原始地圖和對抗地圖的導(dǎo)航結(jié)果,證明了對抗地圖攻擊方法的有效性,指出了目前DRL技術(shù)應(yīng)用在導(dǎo)航系統(tǒng)上存在的安全隱患.

1. 深度學(xué)習(xí)技術(shù)發(fā)展研究
- HOU Yubing；侯玉兵
- 《2017信息通信網(wǎng)技術(shù)業(yè)務(wù)發(fā)展研討會》 | 2017年
- 摘要：近年來人工智能正在取得的重大進(jìn)展,特別是由于擅長發(fā)現(xiàn)高維數(shù)據(jù)中的復(fù)雜結(jié)構(gòu),深度學(xué)習(xí)技術(shù)正成為目前發(fā)展的前沿和研究熱點(diǎn),國內(nèi)外對這一領(lǐng)域越來越重視.深度學(xué)習(xí)的理論研究基本處于起步階段,應(yīng)用領(lǐng)域已顯現(xiàn)出巨大能量,正被應(yīng)用于科學(xué)、商業(yè)和政府等領(lǐng)域.本報告圍繞深度學(xué)習(xí)密切相關(guān)的卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和深度強(qiáng)化學(xué)習(xí)三個主要方面,介紹了近年來國內(nèi)外的主要研究進(jìn)展,分析了國際學(xué)科發(fā)展趨勢和研究特色,可以預(yù)見未來深度學(xué)習(xí)模型將廣泛地應(yīng)用于各個領(lǐng)域,并將產(chǎn)生更深遠(yuǎn)的影響.

1. 一種強(qiáng)化學(xué)習(xí)訓(xùn)練方法及基于強(qiáng)化學(xué)習(xí)的決策方法
- 廣州優(yōu)策科技有限公司
- 公開公告日期：2021.10.15
- 摘要：本發(fā)明提供一種強(qiáng)化學(xué)習(xí)訓(xùn)練方法及基于強(qiáng)化學(xué)習(xí)的決策方法，其中，強(qiáng)化學(xué)習(xí)模型訓(xùn)練方法，包括如下步驟：獲取多組歷史狀態(tài)數(shù)據(jù)；將每一組歷史狀態(tài)數(shù)據(jù)輸入至強(qiáng)化學(xué)習(xí)模型，得到初步?jīng)Q策數(shù)據(jù)；將所述每一組歷史狀態(tài)數(shù)據(jù)和所述初步?jīng)Q策數(shù)據(jù)輸入至預(yù)先建立的貝葉斯神經(jīng)網(wǎng)絡(luò)模型，得到狀態(tài)變化量以及獎勵值，所述狀態(tài)量變化值為當(dāng)前狀態(tài)數(shù)據(jù)與下一狀態(tài)數(shù)據(jù)的差值；根據(jù)所述每一組歷史狀態(tài)數(shù)據(jù)以及對應(yīng)的初步?jīng)Q策數(shù)據(jù)、狀態(tài)變化量以及獎勵值更新所述強(qiáng)化學(xué)習(xí)模型的模型參數(shù)。通過實(shí)施本發(fā)明，能夠增加強(qiáng)化學(xué)習(xí)模型訓(xùn)練樣本量，提高強(qiáng)化學(xué)習(xí)效果，提高動態(tài)決策規(guī)劃結(jié)果的準(zhǔn)確性。
2. 因果關(guān)系驅(qū)動的分層強(qiáng)化學(xué)習(xí)框架及分層強(qiáng)化學(xué)習(xí)方法
- 中國科學(xué)院計算技術(shù)研究所
- 公開公告日期：2022-11-01
- 摘要：本發(fā)明提出一種基于因果關(guān)系驅(qū)動的分層強(qiáng)化學(xué)習(xí)框架，包括：因果關(guān)系發(fā)現(xiàn)模塊，用于獲取智能體的強(qiáng)化學(xué)習(xí)環(huán)境中各環(huán)境變量之間的因果關(guān)系，并構(gòu)建為因果關(guān)系圖；子目標(biāo)分層結(jié)構(gòu)構(gòu)造模塊，用于根據(jù)該環(huán)境變量的變化函數(shù)，構(gòu)建分層強(qiáng)化學(xué)習(xí)的子目標(biāo)集合，選取該環(huán)境變量中的可控變量，通過該因果關(guān)系圖從該子目標(biāo)集合中選出與該可控變量關(guān)聯(lián)的子目標(biāo)為可達(dá)子目標(biāo)，以所有該可達(dá)子目標(biāo)的邏輯關(guān)系為該分層強(qiáng)化學(xué)習(xí)的分層關(guān)系。還提出一種基于因果關(guān)系驅(qū)動的分層強(qiáng)化學(xué)習(xí)方法，以及一種數(shù)據(jù)處理裝置。
3. 基于強(qiáng)化學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)控制方法及強(qiáng)化學(xué)習(xí)系統(tǒng)
- 國電新能源技術(shù)研究院有限公司
- 公開公告日期：2020-07-24
- 摘要：本發(fā)明公開了一種基于強(qiáng)化學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)控制方法及強(qiáng)化學(xué)習(xí)系統(tǒng)。本發(fā)明中，動作網(wǎng)絡(luò)根據(jù)被控對象或其機(jī)理模型的階次和遲延來確定狀態(tài)控制量，被控對象接收動作網(wǎng)絡(luò)發(fā)送的狀態(tài)控制量輸出動作值；由估值網(wǎng)絡(luò)基于輸出動作值對當(dāng)前控制效果與預(yù)定目標(biāo)對比進(jìn)行評價，在對被控對象或其機(jī)理模型探索過程中加入隨機(jī)擾動和模型變化，并同時對動作網(wǎng)絡(luò)和估值網(wǎng)絡(luò)進(jìn)行更新，獲得控制律。通過動作網(wǎng)絡(luò)和估值網(wǎng)絡(luò)對被控對象或其機(jī)理模型的探索，不斷更新和優(yōu)化控制策略，在一定程度上模擬人對環(huán)境的探索和學(xué)習(xí)過程，最終得到一個快速準(zhǔn)確且具有一定魯棒性的神經(jīng)網(wǎng)絡(luò)控制器，能用于解決許多控制領(lǐng)域的難題。
4. 一種基于強(qiáng)化學(xué)習(xí)的深度學(xué)習(xí)算子測試數(shù)據(jù)生成方法
- 南京大學(xué)
- 公開公告日期：2022-04-01
- 摘要：一種基于強(qiáng)化學(xué)習(xí)的深度學(xué)習(xí)算子測試數(shù)據(jù)生成方法，其特征是基于提前定義的基本變異方法組構(gòu)造一個基于變異方法及跳轉(zhuǎn)的QTable，進(jìn)行帶關(guān)聯(lián)的強(qiáng)化學(xué)習(xí)訓(xùn)練，并最終在復(fù)雜場景下采用變異方法鏈生成深度學(xué)習(xí)算子測試數(shù)據(jù)。數(shù)據(jù)變異方法組合可靈活進(jìn)行增、刪、改，本方法提供的基本變異方法包括：字節(jié)、多項式和高斯變異。其中，字節(jié)變異是對測試數(shù)據(jù)的浮點(diǎn)數(shù)二進(jìn)制編碼進(jìn)行字節(jié)操作的變異，包括二進(jìn)制編碼各字節(jié)的增加、刪除、取反、移位、隨機(jī)重置；高斯變異指利用以測試數(shù)據(jù)為均值的高斯分布采樣得到新的測試數(shù)據(jù)；多項式變異指對測試數(shù)據(jù)到邊界的距離進(jìn)行不同比例的放縮。上述變異基于不同的基本思想，兼顧有效性與多樣性。
5. 基于深度強(qiáng)化學(xué)習(xí)的個性化學(xué)習(xí)推薦方法
- 暨南大學(xué)
- 公開公告日期：2020.12.11
- 摘要：本發(fā)明公開了一種基于深度強(qiáng)化學(xué)習(xí)的個性化學(xué)習(xí)推薦方法，包括以下步驟：定義知識點(diǎn)及題目的難度屬性，根據(jù)知識點(diǎn)之間的關(guān)系構(gòu)建知識點(diǎn)網(wǎng)絡(luò)圖；根據(jù)知識點(diǎn)之間的關(guān)系確定知識點(diǎn)下題目之間的關(guān)系，構(gòu)建題目網(wǎng)絡(luò)圖；根據(jù)用戶行為數(shù)據(jù)，在題目網(wǎng)絡(luò)圖中得到針對指定用戶當(dāng)前狀態(tài)下的子圖，作為學(xué)習(xí)邊界；進(jìn)而使用深度強(qiáng)化學(xué)習(xí)算法，利用用戶歷史記錄建模，訓(xùn)練得到在用戶當(dāng)前狀態(tài)下的子圖中如何選取割集策略。本發(fā)明方法可智能化地為用戶推薦最佳題目，節(jié)省用戶學(xué)習(xí)時間，使其學(xué)習(xí)效率提高，學(xué)習(xí)體驗提升。
6. 一種基于深度強(qiáng)化學(xué)習(xí)的深度學(xué)習(xí)漏洞檢測模型對抗樣本生成方法和系統(tǒng)
- 中國科學(xué)院軟件研究所
- 公開公告日期：2022-12-16
- 摘要：本發(fā)明提供一種基于深度強(qiáng)化學(xué)習(xí)的深度學(xué)習(xí)漏洞檢測模型對抗樣本生成方法和系統(tǒng)。該方法包括：獲取基于深度學(xué)習(xí)的目標(biāo)漏洞檢測模型信息以及用于生成對抗樣本的原型漏洞代碼集合；構(gòu)建面向目標(biāo)漏洞檢測模型的有效對抗代碼變換；構(gòu)建面向最優(yōu)對抗樣本生成的深度強(qiáng)化學(xué)習(xí)框架；使用有效對抗代碼變換和面向最優(yōu)對抗樣本生成的深度強(qiáng)化學(xué)習(xí)框架，生成目標(biāo)漏洞檢測模型的最優(yōu)對抗樣本。本發(fā)明利用目標(biāo)漏洞檢測模型的代碼表征中對模型決策有重要影響的特征構(gòu)造有效對抗代碼變換，并采用深度強(qiáng)化學(xué)習(xí)算法生成面向目標(biāo)漏洞檢測模型的最優(yōu)對抗樣本，能更為高效、有針對性地生成基于深度學(xué)習(xí)的目標(biāo)漏洞檢測模型的對抗樣本。
7. 一種基于進(jìn)化學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)的電壓調(diào)節(jié)方法及系統(tǒng)
- 南京郵電大學(xué)
- 公開公告日期：2022-04-12
- 摘要：本發(fā)明公開了一種基于進(jìn)化學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)的電壓調(diào)節(jié)方法及系統(tǒng)，屬于人工智能與控制系統(tǒng)交叉技術(shù)領(lǐng)域，包括：獲取實(shí)時檢測到的環(huán)境狀態(tài)，將其輸入已訓(xùn)練的策略網(wǎng)絡(luò)，得到電壓調(diào)節(jié)策略；根據(jù)電壓調(diào)節(jié)策略調(diào)動調(diào)壓資源完成電壓調(diào)節(jié)；所述策略網(wǎng)絡(luò)通過以下方法訓(xùn)練：對策略網(wǎng)絡(luò)進(jìn)行多階段遞進(jìn)式多節(jié)點(diǎn)深度強(qiáng)化學(xué)習(xí)的訓(xùn)練，每階段訓(xùn)練中應(yīng)用進(jìn)化學(xué)習(xí)，通過已訓(xùn)練的策略網(wǎng)絡(luò)之間的交叉使已訓(xùn)練的策略網(wǎng)絡(luò)數(shù)量翻倍，在進(jìn)行交叉操作的下一個階段中對已訓(xùn)練的策略網(wǎng)絡(luò)進(jìn)行變異操作，直至已訓(xùn)練的策略網(wǎng)絡(luò)數(shù)量達(dá)到預(yù)設(shè)目標(biāo)；每個節(jié)點(diǎn)對應(yīng)一個策略網(wǎng)絡(luò)；適用于多節(jié)點(diǎn)的配電網(wǎng)協(xié)同電壓調(diào)節(jié)，促進(jìn)網(wǎng)絡(luò)訓(xùn)練過程的多樣性，具有強(qiáng)大的可拓展性。
8. 基于深度強(qiáng)化學(xué)習(xí)的個性化學(xué)習(xí)系統(tǒng)及方法
- 貴州廣播電視大學(xué)(貴州職業(yè)技術(shù)學(xué)院)
- 貴州微育科技有限公司
- 貴州云科教服務(wù)有限公司
- 公開公告日期：2021-07-30
- 摘要：本發(fā)明涉及學(xué)習(xí)系統(tǒng)技術(shù)領(lǐng)域，公開了基于深度強(qiáng)化學(xué)習(xí)的個性化學(xué)習(xí)系統(tǒng)及方法，包括個性化學(xué)習(xí)終端、個性化數(shù)據(jù)分析處理端以及個性化學(xué)習(xí)服務(wù)端，所述個性化學(xué)習(xí)終端還包括電子教材交互模塊、作業(yè)與考試模塊、個人學(xué)習(xí)檔案管理模塊、疑難問題互動交流模塊與資源查詢模塊，所述個性化數(shù)據(jù)分析處理端包括個性化學(xué)情數(shù)據(jù)預(yù)處理模塊、學(xué)習(xí)內(nèi)容個性化推薦模塊和學(xué)習(xí)結(jié)果智能測評模型構(gòu)建模塊，優(yōu)點(diǎn)在于：通過整合了學(xué)習(xí)交互活動終端、個性化模型分析端、個性化學(xué)習(xí)服務(wù)端等多環(huán)節(jié)的系統(tǒng)資源，支撐學(xué)習(xí)者依據(jù)學(xué)習(xí)目標(biāo)，應(yīng)用個性化學(xué)習(xí)服務(wù)中心提供的服務(wù)，快速獲取合適的學(xué)習(xí)資源和學(xué)習(xí)策略，完成學(xué)習(xí)目標(biāo)并進(jìn)行自我評價，實(shí)現(xiàn)自我導(dǎo)向?qū)W習(xí)。
9. 基于深度強(qiáng)化學(xué)習(xí)的個性化學(xué)習(xí)推薦方法
- 暨南大學(xué)
- 公開公告日期：2018-10-02
- 摘要：本發(fā)明公開了一種基于深度強(qiáng)化學(xué)習(xí)的個性化學(xué)習(xí)推薦方法，包括以下步驟：定義知識點(diǎn)及題目的難度屬性，根據(jù)知識點(diǎn)之間的關(guān)系構(gòu)建知識點(diǎn)網(wǎng)絡(luò)圖；根據(jù)知識點(diǎn)之間的關(guān)系確定知識點(diǎn)下題目之間的關(guān)系，構(gòu)建題目網(wǎng)絡(luò)圖；根據(jù)用戶行為數(shù)據(jù)，在題目網(wǎng)絡(luò)圖中得到針對指定用戶當(dāng)前狀態(tài)下的子圖，作為學(xué)習(xí)邊界；進(jìn)而使用深度強(qiáng)化學(xué)習(xí)算法，利用用戶歷史記錄建模，訓(xùn)練得到在用戶當(dāng)前狀態(tài)下的子圖中如何選取割集策略。本發(fā)明方法可智能化地為用戶推薦最佳題目，節(jié)省用戶學(xué)習(xí)時間，使其學(xué)習(xí)效率提高，學(xué)習(xí)體驗提升。
10. 基于深度強(qiáng)化學(xué)習(xí)和深度殘差收縮網(wǎng)絡(luò)的投資方法及智能體
- 西交利物浦大學(xué)
- 公開公告日期：2021-06-11
- 摘要：本發(fā)明揭示了一種基于深度強(qiáng)化學(xué)習(xí)和深度殘差收縮網(wǎng)絡(luò)的投資方法及智能體，通過構(gòu)建策略神經(jīng)網(wǎng)絡(luò)，以實(shí)現(xiàn)下一個交易周期的收益率最高；用訓(xùn)練完的策略函數(shù)獲取下一個交易周期的資產(chǎn)分配權(quán)重，并調(diào)整資產(chǎn)在加密貨幣市場中的分配，以此實(shí)現(xiàn)最優(yōu)策略。本發(fā)明強(qiáng)化學(xué)習(xí)的策略函數(shù)在使用資產(chǎn)價格輸入神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上，通過引入額外的特征，幫助策略神經(jīng)網(wǎng)絡(luò)完善了對市場環(huán)境的分析，并采用了深度的殘差收縮結(jié)構(gòu)，極大的提高的智能體的學(xué)習(xí)能力和對于最優(yōu)投資組合策略的探索能力，并且避免了訓(xùn)練時候的梯度消失問題的出現(xiàn)，使得策略網(wǎng)絡(luò)可以進(jìn)行有效的訓(xùn)練，并找出每一個狀態(tài)下的最有效動作。

国产bbaaaaa片,成年美女黄网站色视频免费,成年黄大片,а天堂中文最新一区二区三区,成人精品视频一区二区三区尤物

深度強(qiáng)化學(xué)習(xí)

深度強(qiáng)化學(xué)習(xí)—發(fā)文量

深度強(qiáng)化學(xué)習(xí)—發(fā)文趨勢圖

深度強(qiáng)化學(xué)習(xí)-研究學(xué)者

深度強(qiáng)化學(xué)習(xí)-相關(guān)主題

深度強(qiáng)化學(xué)習(xí)-相關(guān)期刊

深度強(qiáng)化學(xué)習(xí)-相關(guān)會議

深度強(qiáng)化學(xué)習(xí)
-研究學(xué)者

深度強(qiáng)化學(xué)習(xí)
-相關(guān)主題

深度強(qiáng)化學(xué)習(xí)
-相關(guān)期刊

深度強(qiáng)化學(xué)習(xí)
-相關(guān)會議