馬爾可夫決策過程
馬爾可夫決策過程的相關(guān)文獻在1998年到2022年內(nèi)共計241篇,主要集中在自動化技術(shù)、計算機技術(shù)、無線電電子學、電信技術(shù)、電工技術(shù)
等領(lǐng)域,其中期刊論文207篇、會議論文11篇、專利文獻89732篇;相關(guān)期刊112種,包括運籌與管理、系統(tǒng)工程與電子技術(shù)、電力系統(tǒng)自動化等;
相關(guān)會議10種,包括2012中國計算機大會、2006年全國第十屆企業(yè)信息化與工業(yè)工程學術(shù)年會、第五屆中國青年運籌與管理學者大會等;馬爾可夫決策過程的相關(guān)文獻由738位作者貢獻,包括朱江、王浩、丁家滿等。
馬爾可夫決策過程—發(fā)文量
專利文獻>
論文:89732篇
占比:99.76%
總計:89950篇
馬爾可夫決策過程
-研究學者
- 朱江
- 王浩
- 丁家滿
- 關(guān)永
- 劉甜甜
- 吳瓊
- 唐昊
- 姚宏亮
- 姜瑛
- 官蕊
- 張一晉
- 曾偉
- 李偉
- 李曉娟
- 毛寧
- 游進國
- 王小明
- 王瑞
- 葛紅梅
- 賈智平
- 賈連印
- 陳慶新
- 仵博
- 伍從斌
- 何金
- 侯慧娟
- 俞揚
- 馮延蓬
- 劉志鋒
- 劉蓉
- 周從華
- 周加斌
- 周琪琦
- 周雷
- 唐國慶
- 夏春蕊
- 宗陽
- 宮傲宇
- 尤肖虎
- 康波大
- 張德平
- 張方正
- 張杰
- 張衡
- 徐寶文
- 房婷
- 方長勝
- 朱衛(wèi)綱
- 朱淼良
- 朱霸坤
排序:
-
-
周琴;
羅飛;
丁煒超;
顧春華;
鄭帥
-
-
摘要:
Q-Learning是目前一種主流的強化學習算法,但其在隨機環(huán)境中收斂速度不佳,之前的研究針對Speedy Q-Learning存在的過估計問題進行改進,提出了Double Speedy Q-Learning算法。但Double Speedy Q-Learning算法并未考慮隨機環(huán)境中存在的自循環(huán)結(jié)構(gòu),即代理執(zhí)行動作時,存在進入當前狀態(tài)的概率,這將不利于代理在隨機環(huán)境中學習,從而影響算法的收斂速度。針對Double Speedy Q-Learning中存在的自循環(huán)結(jié)構(gòu),利用逐次超松弛技術(shù)對Double Speedy Q-Learning算法的Bellman算子進行改進,提出基于逐次超松弛技術(shù)的Double Speedy Q-Learning算法(Double Speedy Q-Learning based on Successive Over Relaxation,DSQL-SOR),進一步提升了Double Speedy Q-Learning算法的收斂速度。通過數(shù)值實驗將DSQL-SOR與其他算法的實際獎勵和期望獎勵之間的誤差進行對比,實驗結(jié)果表明,所提算法比現(xiàn)有主流的算法SQL的誤差低0.6,比逐次超松弛算法GSQL低0.5,這表明DSQL-SOR算法的性能較其他算法更優(yōu)。實驗同時對DSQL-SOR算法的可拓展性進行測試,當狀態(tài)空間從10增加到1000時,每次迭代的平均時間增長緩慢,始終維持在10^(-4)數(shù)量級上,表明DSQL-SOR的可拓展性較強。
-
-
張文沛;
崔鵬浩;
李洋;
延爽
-
-
摘要:
預測性維護決策旨在提高維護效率的同時,降低維護停機對生產(chǎn)的影響。預測性維護根據(jù)設(shè)備的實際健康狀態(tài)進行維護決策,能有效避免過度維護造成的浪費和維護不及時造成的設(shè)備隨機故障。然而類似于設(shè)備故障停機,預測性維護需要關(guān)閉設(shè)備進行維護作業(yè)。如果維護時機選擇不當,維護過程會引起生產(chǎn)線的饑餓和阻塞,造成生產(chǎn)損失。因此,預測性維護不僅需要關(guān)注設(shè)備自身的維護需求,還需要與實際生產(chǎn)進行聯(lián)動。以考慮機器狀態(tài)劣化的航空產(chǎn)品流水線為研究對象,在流水線產(chǎn)出損失分析的基礎(chǔ)上,研究流水線預測性維護決策問題。首先,針對缺料停機、設(shè)備故障等擾動停機事件和預測性維護事件,分析停機事件對流水線產(chǎn)出的影響,量化造成的流水線產(chǎn)出損失。其次,考慮流水線產(chǎn)出損失和維護成本構(gòu)建獎勵函數(shù),建立基于馬爾可夫決策過程的流水線預測性維護決策模型,結(jié)合深度Q網(wǎng)絡(luò)算法求解模型獲得優(yōu)化決策方案。最后,通過仿真試驗對比其他三種維護方法,驗證了所提出決策模型的有效性。
-
-
宋兆涵;
張德智
-
-
摘要:
主要研究適用于無初始時隙分配和無固定時間基準終端的分布式空間飛行器自組網(wǎng)的初始組網(wǎng)策略。針對空間飛行器網(wǎng)絡(luò)拓撲范圍大、節(jié)點數(shù)目少、協(xié)同組網(wǎng)任務(wù)具有臨時性、可靠性要求高等特點,提出了一種基于時分多址(Time Division Multiple Access,TDMA)的競爭式組網(wǎng)策略,并建立馬爾可夫決策模型計算出最優(yōu)競爭概率,完成網(wǎng)絡(luò)的快速建立。仿真結(jié)果表明,所提出的競爭式時分多址組網(wǎng)策略具有網(wǎng)絡(luò)建立時間短、組網(wǎng)過程可靠性高的特點,提高了網(wǎng)絡(luò)的快速性、靈活性和安全性。
-
-
張明杰;
朱江
-
-
摘要:
以提高無線傳感器網(wǎng)絡(luò)中任務(wù)處理的能效為目標,提出了一種近似最優(yōu)化的任務(wù)處理機制,無線傳感器節(jié)點可根據(jù)任務(wù)緩存區(qū)的任務(wù)數(shù)量、信道條件,動態(tài)地實現(xiàn)任務(wù)向邊緣服務(wù)器的卸載以及本地處理。將任務(wù)處理機制建模為馬爾可夫決策過程,因為無線傳感器節(jié)點不知道此過程的狀態(tài)轉(zhuǎn)移概率,所以采用A3C算法以實現(xiàn)在環(huán)境參數(shù)未知情況下的探索和學習,從而得到近似最優(yōu)的任務(wù)處理策略。仿真結(jié)果表明,與其他機制相比,所提任務(wù)處理機制能提高節(jié)點能效,且收斂速度更快。
-
-
李學明;
吳國豪;
周尚波;
林曉然;
謝洪斌
-
-
摘要:
針對目前的分數(shù)階非線性模型圖像特征提取能力不足導致分割精度較低的問題,提出一種基于分數(shù)階網(wǎng)絡(luò)和強化學習(RL)的圖像實例分割模型,用來分割出圖像中目標實例的高質(zhì)量輪廓曲線。該模型共包含兩層模塊:1)第一層為二維分數(shù)階非線性網(wǎng)絡(luò),主要采用混沌同步方法來獲取圖像中像素點的基礎(chǔ)特征,并通過根據(jù)像素點間的相似性進行耦合連接的方式獲取初步的圖像分割結(jié)果;2)第二層通過RL思想將圖像實例分割建立為一個馬爾可夫決策過程(MDP),并利用建模過程中的動作?狀態(tài)對、獎勵函數(shù)和策略的設(shè)計來獲取圖像的區(qū)域結(jié)構(gòu)和類別信息。最后將第一層獲取到的像素特征和初步的圖像分割結(jié)果與第二層獲取到的區(qū)域結(jié)構(gòu)和類別信息聯(lián)合起來進行實例分割。在Pascal VOC2007和Pascal VOC2012數(shù)據(jù)集上的實驗結(jié)果表明,這種基于連續(xù)決策的圖像實例分割模型與傳統(tǒng)的分數(shù)階模型相比,平均精度(AP)至少提升了15個百分點,不僅能夠獲取圖像中目標物體的類別信息,而且進一步提升了對圖像輪廓細節(jié)和細粒度信息的提取能力。
-
-
謝芳;
徐哲;
于靜
-
-
摘要:
可更新資源可用量的不確定是項目調(diào)度中普遍面臨的問題,本文在隨機資源可用量和活動多模式的約束下,考慮到活動可中斷的情形,基于馬爾可夫決策過程理論構(gòu)建以最小化項目期望工期為目標的隨機調(diào)度模型,針對問題特征設(shè)計以動態(tài)活動-模式優(yōu)先規(guī)則和串行調(diào)度生成機制相結(jié)合的啟發(fā)式算法作為基準策略的Rollout算法,并針對PSLIB的J30算例集展開實驗研究。研究發(fā)現(xiàn):隨著資源可用量變化波動的增大,項目工期、活動中斷次數(shù)以及問題的求解難度也隨之增加;雖然考慮活動中斷的優(yōu)先規(guī)則在解決確定型問題時的表現(xiàn)優(yōu)于不考慮活動中斷的優(yōu)先規(guī)則,但對于隨機問題的效果卻相反;本文提出的算法對于資源需求小或資源供應(yīng)充足的情形求解效果更佳。本研究可以有效利用項目進度信息為項目管理者提供高質(zhì)量的動態(tài)決策依據(jù)。
-
-
官蕊;
丁家滿;
賈連??;
游進國;
姜瑛
-
-
摘要:
推薦算法在一定程度上解決了信息過載問題,但傳統(tǒng)推薦模型在挖掘數(shù)據(jù)特性方面有待改進。為此,結(jié)合強化學習方法提出一種融合序列模式評分的策略梯度推薦算法。將推薦過程建模為馬爾可夫決策過程;分析推薦基礎(chǔ)數(shù)據(jù)特性模式,設(shè)計以序列模式評分為獎勵的反饋函數(shù),在算法的每一次迭代過程中學習;通過對累積獎勵設(shè)計標準化操作來降低策略梯度的方差。將該方法應(yīng)用到電影推薦中進行驗證,結(jié)果表明所提方法具有較好的推薦準確性。
-
-
劉奇;
馬嬈;
俞凱
-
-
摘要:
自然語言生成是目前非常重要且具有挑戰(zhàn)性的一類人工智能任務(wù).長短時記憶(Long Short-Term Memory,LSTM)語言模型是目前最為主流的自然語言生成模型.但是,LSTM語言模型的訓練準則是詞語級別的交叉熵,這會導致暴露偏差問題.此外,一般自然語言生成任務(wù)的評測指標是序列級別的BLEU分數(shù)或者詞錯誤率,這與訓練使用的交叉熵準則也不匹配.在本文中,我們使用馬爾可夫決策過程重定義了自然語言生成問題,并通過從訓練數(shù)據(jù)中提取的先驗控制向量來指導生成過程.先驗控制向量可以視作是對序列空間的一種先驗劃分的抽象,通過在自然語言生成中引入先驗控制向量,我們可以更好的約束自然語言生成的空間.再通過馬爾可夫決策過程的定義,我們可以使用策略梯度算法來直接使用測試使用的BLEU分數(shù)來代替交叉熵訓練LSTM網(wǎng)絡(luò).在多個數(shù)據(jù)集上的實驗顯示本文提出的方法相比于普通使用LSTM語言模型的基線系統(tǒng)在BLEU分數(shù)上有大約絕對2%~3%的提升.
-
-
夏天;
黃冠;
李穎
-
-
摘要:
針對大型醫(yī)用設(shè)備人工管理效率低、無法滿足應(yīng)急調(diào)度需求的問題,文中提出了基于深度強化學習算法的醫(yī)用設(shè)備應(yīng)急調(diào)度優(yōu)化技術(shù)。使用物聯(lián)網(wǎng)技術(shù)采集大型醫(yī)用設(shè)備日常使用的各類參數(shù),作為后續(xù)調(diào)度優(yōu)化算法的樣本數(shù)據(jù)。通過對醫(yī)用設(shè)備調(diào)度問題的分析,采用馬爾可夫決策過程作為調(diào)度優(yōu)化算法的基礎(chǔ)模型,并給出了狀態(tài)空間、動作空間以及獎懲函數(shù)的定義。同時,以貪婪策略作為強化學習的動作探索策略,使用Tanh函數(shù)作為激活函數(shù),從而提高了對非線性復雜數(shù)據(jù)的學習能力;使用DDPG算法在經(jīng)驗數(shù)據(jù)中獲得價值估計和行為估計。經(jīng)測試,文中所提出的醫(yī)用設(shè)備應(yīng)急調(diào)度優(yōu)化算法可合理安排醫(yī)用設(shè)備的使用,提高其綜合利用率,與未使用應(yīng)急調(diào)度算法的情況對比,檢查耗時平均縮短了31.2%。
-
-
馮昌森;
張瑜;
謝路耀;
文福拴;
張凱怡;
張有兵
-
-
摘要:
隨著可再生能源發(fā)電滲透率的不斷增大,配電系統(tǒng)的電壓越限問題愈發(fā)頻繁,亟需高效的電壓管理策略以保證配電系統(tǒng)的安全經(jīng)濟運行。首先,文中建立了雙時間尺度的配電系統(tǒng)電壓管理模型,實現(xiàn)不同時間響應(yīng)特性的調(diào)壓設(shè)備協(xié)調(diào)控制。然后,將2個時間尺度的電壓管理模型建模為馬爾可夫決策過程,在有效考慮兩者的時間耦合關(guān)系和可控設(shè)備物理特性的基礎(chǔ)上,分別利用多智能體深度確定性策略梯度算法和雙深度Q網(wǎng)絡(luò)算法求解模型,實現(xiàn)了雙時間尺度的實時電壓管理。最后,基于IEEE 33節(jié)點配電系統(tǒng)進行算例分析,驗證了所提模型和方法的有效性。
-
-
ZHOU Cong-Hua;
周從華;
XING Zhi-Hu;
邢支虎;
LIU Zhi-Feng;
劉志鋒;
WANG Chang-Da;
王昌達
- 《2012中國計算機大會》
| 2012年
-
摘要:
限界模型檢測避免了符號模型檢測反應(yīng)式系統(tǒng)中構(gòu)建二叉圖時出現(xiàn)的空間快速增長,已經(jīng)被證明是緩解狀態(tài)空間爆炸問題的有力技術(shù).本文遵循限界模型檢測的思想,對馬爾可夫決策過程提出一種限界模型檢測技術(shù),從而避免構(gòu)建多端二叉圖時空間的快速增長.該技術(shù)首先定義概率計算樹邏輯的限界語義,并證明其正確性;其次說明傳統(tǒng)限界模型檢測中以路徑長度作為判斷檢測過程終止的標準已經(jīng)失效,本文基于數(shù)值計算中牛頓迭代法的終止準則,設(shè)計了新的終止判斷準則;然后提出基于線性方程組求解的限界模型檢測算法;最后分析了概率度量增長的規(guī)律,并針對該規(guī)律給出了兩種終止判別標準的修正方案.終止判別標準的設(shè)計與基于線性方程組求解的檢測算法使得我們的技術(shù)完全異于傳統(tǒng)限界檢測.實驗結(jié)果說明限界模型檢測技術(shù)在證據(jù)較短的情況下,所需內(nèi)存空間少于無界模型檢測算法.
-
-
金楊恒;
曾偉
- 《2006年全國第十屆企業(yè)信息化與工業(yè)工程學術(shù)年會》
| 2006年
-
摘要:
馬爾可夫決策過程是確定性動態(tài)規(guī)劃和馬爾可夫過程結(jié)合的產(chǎn)物,是研究隨機環(huán)境下多階段決策過程優(yōu)化問題的理論工具.DT-Golog是將馬爾可夫決策過程引入Golog邏輯編程語言的擴展.本文針對動態(tài)工作流集成問題中業(yè)務(wù)邏輯的不確定性,利用DT-Golog對動態(tài)工作流集成問題進行建模,結(jié)合編程和規(guī)劃二者的優(yōu)點,最后得到最優(yōu)策略.
-
-
Wang Wenshan;
王雯珊;
Cao Qixin;
曹其新
- 《第十一屆中國智能機器人會議》
| 2015年
-
摘要:
針對經(jīng)典規(guī)劃模型和馬爾可夫決策過程(MDP)模型的不足,提出了一種輕量馬爾可夫決策過程(LMDP)模型.此模型在MDP模型上作了簡化,使其既能描述實際任務(wù)中不確定性的特點,又有效降低了狀態(tài)轉(zhuǎn)移的分支系數(shù),從而適用于大規(guī)模的問題.另外,利用經(jīng)典規(guī)劃領(lǐng)域的啟發(fā)函數(shù)對LMDP問題進行初始化,能夠大大加快收斂速度.最后以機器人酒吧任務(wù)為例,將此模型與基于MDP模型的Prost規(guī)劃器在不同問題規(guī)模下進行對比,實驗結(jié)果表明此模型能有效加快求解速度,并能夠更好地適應(yīng)大規(guī)模實際環(huán)境.
-
-
-
唐昊;
陳棟;
周雷
- 《第二十四屆中國控制會議》
| 2005年
-
摘要:
本文研究馬爾可夫決策過程(MDP)在actor-critic模式下,基于性能勢學習的神經(jīng)元動態(tài)規(guī)劃(NDP)方法.首先,通過MDP的一個一致鏈的單個樣本軌道,利用一個神經(jīng)元網(wǎng)絡(luò)逼近其性能勢,并根據(jù)折扣和平均準則下統(tǒng)一的參數(shù)TD(λ)學習算法對性能勢進行學習,即策略評估;然后,利用另一個神經(jīng)網(wǎng)絡(luò)表示策略,基于同一樣本軌道和前述網(wǎng)絡(luò)學習得到的性能勢,改進網(wǎng)絡(luò)參數(shù),即進行參數(shù)策略改進.這種actor-critic優(yōu)化方法可推廣到模型參數(shù)已知的半馬爾可夫決策過程(SMDP).最后,我們給出一個數(shù)值例子來說明算法的應(yīng)用.
-
-
姜玉雙
- 《第五屆中國青年運籌與管理學者大會》
| 2003年
-
摘要:
本文對馬爾可夫決策過程(Markov Decision Process,簡記為:MDP)中概率準則的有關(guān)模型進行了綜述.概率準則是實際問題中應(yīng)用的比較廣泛的一個重要準則.首先我們給出了MDP的一般構(gòu)成.并介紹了一些經(jīng)典的MDP模型,即以期望值為優(yōu)化目標的期望模型,如有限階段模型、折扣模型和平均模型等.其次我們介紹了MDP中關(guān)于概率準則模型的有關(guān)性質(zhì)和有效算法.最后提出概率準則模型今后可能的研究方向.
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
- 東南大學
- 公開公告日期:2022-05-17
-
摘要:
本發(fā)明涉及一種基于馬爾可夫決策過程的PoW共識協(xié)議安全評估方法,首先使用爬蟲從對應(yīng)的PoW共識協(xié)議應(yīng)用瀏覽器中爬取得到區(qū)塊鏈應(yīng)用網(wǎng)絡(luò)環(huán)境的實時數(shù)據(jù),通過ns3網(wǎng)絡(luò)模擬器編程模擬待評估的區(qū)塊鏈應(yīng)用的網(wǎng)絡(luò)環(huán)境,包括挖礦過程和交易過程的模擬,獲得模擬實驗結(jié)果值。再和PoW共識協(xié)議的其它一些仿真參數(shù)一起直接輸入到MDP模型的模擬器中。利用MDP模型模擬誠實礦工和惡意礦工的挖礦過程、交易過程和惡意礦工的攻擊過程,通過目標函數(shù)量化共識協(xié)議抗攻擊能力得到共識協(xié)議安全的一輪評估結(jié)果后判斷是否到達預設(shè)定的閾值并調(diào)整下輪的輸入?yún)?shù)。經(jīng)過固定輪次的馬爾可夫決策過程,給PoW共識協(xié)議的創(chuàng)建者提供該共識協(xié)議的修改建議。