您現(xiàn)在的位置：首頁> 研究主題> 馬爾可夫決策過程

馬爾可夫決策過程

馬爾可夫決策過程的相關(guān)文獻在1998年到2022年內(nèi)共計241篇，主要集中在自動化技術(shù)、計算機技術(shù)、無線電電子學、電信技術(shù)、電工技術(shù) 等領(lǐng)域，其中期刊論文207篇、會議論文11篇、專利文獻89732篇；相關(guān)期刊112種，包括運籌與管理、系統(tǒng)工程與電子技術(shù)、電力系統(tǒng)自動化等；相關(guān)會議10種，包括2012中國計算機大會、2006年全國第十屆企業(yè)信息化與工業(yè)工程學術(shù)年會、第五屆中國青年運籌與管理學者大會等；馬爾可夫決策過程的相關(guān)文獻由738位作者貢獻，包括朱江、王浩、丁家滿等。

馬爾可夫決策過程—發(fā)文量

期刊論文>

論文：207篇占比：0.23%

會議論文>

論文：11篇占比：0.01%

專利文獻>

論文：89732篇占比：99.76%

總計：89950篇

馬爾可夫決策過程—發(fā)文趨勢圖

馬爾可夫決策過程
-研究學者

朱江
王浩
丁家滿
關(guān)永
劉甜甜
吳瓊
唐昊
姚宏亮
姜瑛
官蕊
張一晉
曾偉
李偉
李曉娟
毛寧
游進國
王小明
王瑞
葛紅梅
賈智平
賈連印
陳慶新
仵博
伍從斌
何金
侯慧娟
俞揚
馮延蓬
劉志鋒
劉蓉
周從華
周加斌
周琪琦
周雷
唐國慶
夏春蕊
宗陽
宮傲宇
尤肖虎
康波大
張德平
張方正
張杰
張衡
徐寶文
房婷
方長勝
朱衛(wèi)綱
朱淼良
朱霸坤

馬爾可夫決策過程
-相關(guān)主題

馬爾可夫決策過程
-相關(guān)期刊

馬爾可夫決策過程
-相關(guān)會議

期刊論文
會議論文
專利文獻

搜索

排序：

學科

年份

2022
(34)
2021
(26)
2020
(14)
2019
(14)
2018
(4)
2017
(8)
2016
(17)
2015
(9)
2014
(6)
2013
(9)
2012
(5)
2011
(9)
2010
(6)
2009
(9)
2008
(13)
2007
(20)
2006
(6)
2005
(4)
2004
(3)
2003
(2)
2001
(5)
1999
(1)

期刊

收錄數(shù)據(jù)庫

作者

朱江
(4)
王浩
(4)
丁家滿
(3)
關(guān)永
(3)
劉甜甜
(3)
吳瓊
(3)
唐昊
(3)
姚宏亮
(3)
姜瑛
(3)
官蕊
(3)
張一晉
(3)
曾偉
(3)
李偉
(3)
李曉娟
(3)
毛寧
(3)
游進國
(3)
王小明
(3)
王瑞
(3)
葛紅梅
(3)
賈智平
(3)
賈連印
(3)
陳慶新
(3)
仵博
(2)
伍從斌
(2)
何金
(2)
侯慧娟
(2)
俞揚
(2)
馮延蓬
(2)
劉志鋒
(2)
劉蓉
(2)
周從華
(2)
周加斌
(2)
周琪琦
(2)
周雷
(2)
唐國慶
(2)
夏春蕊
(2)
宗陽
(2)
宮傲宇
(2)
尤肖虎
(2)
康波大
(2)
張德平
(2)
張方正
(2)
張杰
(2)
張衡
(2)
徐寶文
(2)
房婷
(2)
方長勝
(2)
朱衛(wèi)綱
(2)
朱淼良
(2)
朱霸坤
(2)

關(guān)鍵詞

1. 基于逐次超松弛技術(shù)的Double Speedy Q-Learning算法
- 周琴；羅飛；丁煒超；顧春華；鄭帥
- 摘要： Q-Learning是目前一種主流的強化學習算法,但其在隨機環(huán)境中收斂速度不佳,之前的研究針對Speedy Q-Learning存在的過估計問題進行改進,提出了Double Speedy Q-Learning算法。但Double Speedy Q-Learning算法并未考慮隨機環(huán)境中存在的自循環(huán)結(jié)構(gòu),即代理執(zhí)行動作時,存在進入當前狀態(tài)的概率,這將不利于代理在隨機環(huán)境中學習,從而影響算法的收斂速度。針對Double Speedy Q-Learning中存在的自循環(huán)結(jié)構(gòu),利用逐次超松弛技術(shù)對Double Speedy Q-Learning算法的Bellman算子進行改進,提出基于逐次超松弛技術(shù)的Double Speedy Q-Learning算法(Double Speedy Q-Learning based on Successive Over Relaxation,DSQL-SOR),進一步提升了Double Speedy Q-Learning算法的收斂速度。通過數(shù)值實驗將DSQL-SOR與其他算法的實際獎勵和期望獎勵之間的誤差進行對比,實驗結(jié)果表明,所提算法比現(xiàn)有主流的算法SQL的誤差低0.6,比逐次超松弛算法GSQL低0.5,這表明DSQL-SOR算法的性能較其他算法更優(yōu)。實驗同時對DSQL-SOR算法的可拓展性進行測試,當狀態(tài)空間從10增加到1000時,每次迭代的平均時間增長緩慢,始終維持在10^(-4)數(shù)量級上,表明DSQL-SOR的可拓展性較強。
2. 事件驅(qū)動的航空制造流水線預測性維護決策研究
- 張文沛；崔鵬浩；李洋；延爽
- 摘要：預測性維護決策旨在提高維護效率的同時,降低維護停機對生產(chǎn)的影響。預測性維護根據(jù)設(shè)備的實際健康狀態(tài)進行維護決策,能有效避免過度維護造成的浪費和維護不及時造成的設(shè)備隨機故障。然而類似于設(shè)備故障停機,預測性維護需要關(guān)閉設(shè)備進行維護作業(yè)。如果維護時機選擇不當,維護過程會引起生產(chǎn)線的饑餓和阻塞,造成生產(chǎn)損失。因此,預測性維護不僅需要關(guān)注設(shè)備自身的維護需求,還需要與實際生產(chǎn)進行聯(lián)動。以考慮機器狀態(tài)劣化的航空產(chǎn)品流水線為研究對象,在流水線產(chǎn)出損失分析的基礎(chǔ)上,研究流水線預測性維護決策問題。首先,針對缺料停機、設(shè)備故障等擾動停機事件和預測性維護事件,分析停機事件對流水線產(chǎn)出的影響,量化造成的流水線產(chǎn)出損失。其次,考慮流水線產(chǎn)出損失和維護成本構(gòu)建獎勵函數(shù),建立基于馬爾可夫決策過程的流水線預測性維護決策模型,結(jié)合深度Q網(wǎng)絡(luò)算法求解模型獲得優(yōu)化決策方案。最后,通過仿真試驗對比其他三種維護方法,驗證了所提出決策模型的有效性。
3. 基于競爭時隙的空間飛行器快速組網(wǎng)策略
- 宋兆涵；張德智
- 摘要：主要研究適用于無初始時隙分配和無固定時間基準終端的分布式空間飛行器自組網(wǎng)的初始組網(wǎng)策略。針對空間飛行器網(wǎng)絡(luò)拓撲范圍大、節(jié)點數(shù)目少、協(xié)同組網(wǎng)任務(wù)具有臨時性、可靠性要求高等特點,提出了一種基于時分多址(Time Division Multiple Access,TDMA)的競爭式組網(wǎng)策略,并建立馬爾可夫決策模型計算出最優(yōu)競爭概率,完成網(wǎng)絡(luò)的快速建立。仿真結(jié)果表明,所提出的競爭式時分多址組網(wǎng)策略具有網(wǎng)絡(luò)建立時間短、組網(wǎng)過程可靠性高的特點,提高了網(wǎng)絡(luò)的快速性、靈活性和安全性。
4. WSN中基于強化學習的能效優(yōu)化任務(wù)處理機制
- 張明杰；朱江
- 摘要：以提高無線傳感器網(wǎng)絡(luò)中任務(wù)處理的能效為目標,提出了一種近似最優(yōu)化的任務(wù)處理機制,無線傳感器節(jié)點可根據(jù)任務(wù)緩存區(qū)的任務(wù)數(shù)量、信道條件,動態(tài)地實現(xiàn)任務(wù)向邊緣服務(wù)器的卸載以及本地處理。將任務(wù)處理機制建模為馬爾可夫決策過程,因為無線傳感器節(jié)點不知道此過程的狀態(tài)轉(zhuǎn)移概率,所以采用A3C算法以實現(xiàn)在環(huán)境參數(shù)未知情況下的探索和學習,從而得到近似最優(yōu)的任務(wù)處理策略。仿真結(jié)果表明,與其他機制相比,所提任務(wù)處理機制能提高節(jié)點能效,且收斂速度更快。
5. 基于分數(shù)階網(wǎng)絡(luò)和強化學習的圖像實例分割模型
- 李學明；吳國豪；周尚波；林曉然；謝洪斌
- 摘要：針對目前的分數(shù)階非線性模型圖像特征提取能力不足導致分割精度較低的問題,提出一種基于分數(shù)階網(wǎng)絡(luò)和強化學習(RL)的圖像實例分割模型,用來分割出圖像中目標實例的高質(zhì)量輪廓曲線。該模型共包含兩層模塊:1)第一層為二維分數(shù)階非線性網(wǎng)絡(luò),主要采用混沌同步方法來獲取圖像中像素點的基礎(chǔ)特征,并通過根據(jù)像素點間的相似性進行耦合連接的方式獲取初步的圖像分割結(jié)果;2)第二層通過RL思想將圖像實例分割建立為一個馬爾可夫決策過程(MDP),并利用建模過程中的動作?狀態(tài)對、獎勵函數(shù)和策略的設(shè)計來獲取圖像的區(qū)域結(jié)構(gòu)和類別信息。最后將第一層獲取到的像素特征和初步的圖像分割結(jié)果與第二層獲取到的區(qū)域結(jié)構(gòu)和類別信息聯(lián)合起來進行實例分割。在Pascal VOC2007和Pascal VOC2012數(shù)據(jù)集上的實驗結(jié)果表明,這種基于連續(xù)決策的圖像實例分割模型與傳統(tǒng)的分數(shù)階模型相比,平均精度(AP)至少提升了15個百分點,不僅能夠獲取圖像中目標物體的類別信息,而且進一步提升了對圖像輪廓細節(jié)和細粒度信息的提取能力。
6. 資源可用量不確定和活動多模式情形下的隨機項目調(diào)度問題
- 謝芳；徐哲；于靜
- 摘要：可更新資源可用量的不確定是項目調(diào)度中普遍面臨的問題,本文在隨機資源可用量和活動多模式的約束下,考慮到活動可中斷的情形,基于馬爾可夫決策過程理論構(gòu)建以最小化項目期望工期為目標的隨機調(diào)度模型,針對問題特征設(shè)計以動態(tài)活動-模式優(yōu)先規(guī)則和串行調(diào)度生成機制相結(jié)合的啟發(fā)式算法作為基準策略的Rollout算法,并針對PSLIB的J30算例集展開實驗研究。研究發(fā)現(xiàn):隨著資源可用量變化波動的增大,項目工期、活動中斷次數(shù)以及問題的求解難度也隨之增加;雖然考慮活動中斷的優(yōu)先規(guī)則在解決確定型問題時的表現(xiàn)優(yōu)于不考慮活動中斷的優(yōu)先規(guī)則,但對于隨機問題的效果卻相反;本文提出的算法對于資源需求小或資源供應(yīng)充足的情形求解效果更佳。本研究可以有效利用項目進度信息為項目管理者提供高質(zhì)量的動態(tài)決策依據(jù)。
7. 融合序列模式評分的策略梯度推薦算法
- 官蕊；丁家滿；賈連??；游進國；姜瑛
- 摘要：推薦算法在一定程度上解決了信息過載問題,但傳統(tǒng)推薦模型在挖掘數(shù)據(jù)特性方面有待改進。為此,結(jié)合強化學習方法提出一種融合序列模式評分的策略梯度推薦算法。將推薦過程建模為馬爾可夫決策過程;分析推薦基礎(chǔ)數(shù)據(jù)特性模式,設(shè)計以序列模式評分為獎勵的反饋函數(shù),在算法的每一次迭代過程中學習;通過對累積獎勵設(shè)計標準化操作來降低策略梯度的方差。將該方法應(yīng)用到電影推薦中進行驗證,結(jié)果表明所提方法具有較好的推薦準確性。
8. 馬爾可夫決策過程和先驗控制向量在弱約束自然語言生成中的應(yīng)用
- 劉奇；馬嬈；俞凱
- 摘要：自然語言生成是目前非常重要且具有挑戰(zhàn)性的一類人工智能任務(wù).長短時記憶(Long Short-Term Memory,LSTM)語言模型是目前最為主流的自然語言生成模型.但是,LSTM語言模型的訓練準則是詞語級別的交叉熵,這會導致暴露偏差問題.此外,一般自然語言生成任務(wù)的評測指標是序列級別的BLEU分數(shù)或者詞錯誤率,這與訓練使用的交叉熵準則也不匹配.在本文中,我們使用馬爾可夫決策過程重定義了自然語言生成問題,并通過從訓練數(shù)據(jù)中提取的先驗控制向量來指導生成過程.先驗控制向量可以視作是對序列空間的一種先驗劃分的抽象,通過在自然語言生成中引入先驗控制向量,我們可以更好的約束自然語言生成的空間.再通過馬爾可夫決策過程的定義,我們可以使用策略梯度算法來直接使用測試使用的BLEU分數(shù)來代替交叉熵訓練LSTM網(wǎng)絡(luò).在多個數(shù)據(jù)集上的實驗顯示本文提出的方法相比于普通使用LSTM語言模型的基線系統(tǒng)在BLEU分數(shù)上有大約絕對2%~3%的提升.
9. 基于深度強化學習的醫(yī)用設(shè)備應(yīng)急調(diào)度優(yōu)化技術(shù)研究
- 夏天；黃冠；李穎
- 摘要：針對大型醫(yī)用設(shè)備人工管理效率低、無法滿足應(yīng)急調(diào)度需求的問題,文中提出了基于深度強化學習算法的醫(yī)用設(shè)備應(yīng)急調(diào)度優(yōu)化技術(shù)。使用物聯(lián)網(wǎng)技術(shù)采集大型醫(yī)用設(shè)備日常使用的各類參數(shù),作為后續(xù)調(diào)度優(yōu)化算法的樣本數(shù)據(jù)。通過對醫(yī)用設(shè)備調(diào)度問題的分析,采用馬爾可夫決策過程作為調(diào)度優(yōu)化算法的基礎(chǔ)模型,并給出了狀態(tài)空間、動作空間以及獎懲函數(shù)的定義。同時,以貪婪策略作為強化學習的動作探索策略,使用Tanh函數(shù)作為激活函數(shù),從而提高了對非線性復雜數(shù)據(jù)的學習能力;使用DDPG算法在經(jīng)驗數(shù)據(jù)中獲得價值估計和行為估計。經(jīng)測試,文中所提出的醫(yī)用設(shè)備應(yīng)急調(diào)度優(yōu)化算法可合理安排醫(yī)用設(shè)備的使用,提高其綜合利用率,與未使用應(yīng)急調(diào)度算法的情況對比,檢查耗時平均縮短了31.2%。
10. 配電系統(tǒng)雙時間尺度電壓管理的深度強化學習方法
- 馮昌森；張瑜；謝路耀；文福拴；張凱怡；張有兵
- 摘要：隨著可再生能源發(fā)電滲透率的不斷增大,配電系統(tǒng)的電壓越限問題愈發(fā)頻繁,亟需高效的電壓管理策略以保證配電系統(tǒng)的安全經(jīng)濟運行。首先,文中建立了雙時間尺度的配電系統(tǒng)電壓管理模型,實現(xiàn)不同時間響應(yīng)特性的調(diào)壓設(shè)備協(xié)調(diào)控制。然后,將2個時間尺度的電壓管理模型建模為馬爾可夫決策過程,在有效考慮兩者的時間耦合關(guān)系和可控設(shè)備物理特性的基礎(chǔ)上,分別利用多智能體深度確定性策略梯度算法和雙深度Q網(wǎng)絡(luò)算法求解模型,實現(xiàn)了雙時間尺度的實時電壓管理。最后,基于IEEE 33節(jié)點配電系統(tǒng)進行算例分析,驗證了所提模型和方法的有效性。

1. 移動云計算系統(tǒng)中基于馬爾科夫決策過程的協(xié)作卸載方法
- 東南大學
- 公開公告日期：2022.02.15
- 摘要：本發(fā)明公開了一種移動云計算系統(tǒng)中基于馬爾科夫決策過程的協(xié)作卸載方法，包括：(1)將任務(wù)隊列狀態(tài)、邊緣云狀態(tài)、移動自組織云狀態(tài)和中心云狀態(tài)組合成馬爾科夫決策過程的狀態(tài)空間，并計算得到狀態(tài)轉(zhuǎn)移概率矩陣；(2)定義動作空間；(3)以時延和能耗定義馬爾科夫決策過程的立即回報函數(shù)；(4)將一系列輸入任務(wù)作為統(tǒng)計樣本，計算任務(wù)分割閾值；(5)根據(jù)已得到的閾值，通過任務(wù)分割算法實現(xiàn)任務(wù)的自適應(yīng)分割；(6)根據(jù)子任務(wù)的大小、狀態(tài)轉(zhuǎn)移概率矩陣和立即回報函數(shù)，通過值迭代算法得到卸載決策結(jié)果。本發(fā)明基于馬爾科夫決策過程，滿足時延和能耗最小化；通過任務(wù)分割算法將任務(wù)自適應(yīng)分割，實現(xiàn)了云計算資源的充分利用和負載均衡。
2. 基于半馬爾科夫決策過程的橋梁全壽命維護策略優(yōu)化方法
- 浙江大學
- 浙江海峽創(chuàng)新科技有限公司
- 海峽創(chuàng)新互聯(lián)網(wǎng)股份有限公司
- 公開公告日期：2022.05.10
- 摘要：本發(fā)明公開了一種基于半馬爾科夫決策過程的橋梁全壽命維護策略優(yōu)化方法，包括：S1、確定橋梁的年失效概率及對應(yīng)的可靠度指標，并根據(jù)可靠度指標定義橋梁狀態(tài)；S2、僅考慮銹蝕引起的可靠度指標退化，且設(shè)定退化過程符合伽馬過程；S3、計算決策區(qū)間內(nèi)橋梁的失效概率；S4、每年對橋梁進行一次健康檢測，判斷橋梁保護層的退化情況并確定橋梁狀態(tài)，根據(jù)橋梁狀態(tài)確定采取的決策，該決策問題采用半馬爾科夫決策過程模型；S5、求解半馬爾科夫決策過程模型，獲得橋梁最優(yōu)全壽命維護策略。該方法基于橋梁的可靠度指標對預防性維護策略和必要性維護策略進行統(tǒng)一優(yōu)化，同時考慮了橋梁性能退化過程中的隨機性及決策區(qū)間內(nèi)橋梁的時變可靠度。
3. 基于馬爾可夫決策過程的輔助決策系統(tǒng)和方法
- 合肥工業(yè)大學
- 公開公告日期：2022.09.30
- 摘要：本發(fā)明提供一種基于馬爾可夫決策過程的輔助決策系統(tǒng)和方法，涉及輔助決策技術(shù)領(lǐng)域。本發(fā)明包括用于獲取病患信息和醫(yī)療資源信息的信息獲取模塊，用于基于病患信息和醫(yī)療資源信息構(gòu)建馬爾可夫決策模型的決策模型構(gòu)建模塊，和用于基于馬爾可夫決策模型選取病患的最佳治療方案的方案選取模塊。本發(fā)明通過方案選取模塊中的馬爾可夫決策模型為慢性腎臟病患者選取最佳的治療方案，不僅為醫(yī)護工作者提供了精確的計算機輔助決策，有效避免了現(xiàn)有技術(shù)中根據(jù)臨床經(jīng)驗主觀的為患者選擇治療方案的過程中因主觀因素而致選擇的治療方案存在一定的誤差，造成治療效果不理想。且有效地為醫(yī)護人員減輕了工作負擔，有效緩解了醫(yī)療壓力。
4. 基于馬爾可夫決策過程的輸變電設(shè)備最佳檢修決策方法
- 國網(wǎng)山東省電力公司電力科學研究院
- 上海交通大學
- 國網(wǎng)山東省電力公司
- 國家電網(wǎng)公司
- 公開公告日期：2019.09.10
- 摘要：本發(fā)明公開了一種基于馬爾可夫決策過程的輸變電設(shè)備最佳檢修決策方法，包括：建立不同狀態(tài)之間的轉(zhuǎn)移關(guān)系的輸變電設(shè)備狀態(tài)轉(zhuǎn)移關(guān)系圖；根據(jù)輸變電設(shè)備狀態(tài)轉(zhuǎn)移關(guān)系圖建立輸變電設(shè)備狀態(tài)檢修模型；利用馬爾可夫過程求解輸變電設(shè)備不同狀態(tài)的穩(wěn)態(tài)概率；建立檢修策略以及檢修策略對應(yīng)的報酬之間的函數(shù)關(guān)系式；以在檢修策略下使得報酬序列的某個函數(shù)值最大為序列決策問題的目標建立基于馬爾可夫的輸變電設(shè)備檢修決策模型；根據(jù)輸變電設(shè)備不同狀態(tài)的穩(wěn)態(tài)概率，采用策略迭代法求解最優(yōu)的檢修決策。本發(fā)明有益效果：應(yīng)用馬爾可夫決策可以折中維修成本和故障損失，得到經(jīng)濟最優(yōu)的檢修決策，為檢修決策人員提供參考。
5. 基于半馬爾可夫決策過程車載霧輔助的車隊任務(wù)卸載方法
- 江南大學
- 公開公告日期：2022.10.18
- 摘要：本發(fā)明涉及基于半馬爾可夫決策過程車載霧輔助的車隊任務(wù)卸載方法。本發(fā)明同時考慮任務(wù)卸載中的發(fā)送時延和計算時延等因素，建立基于半馬爾可夫決策過程的任務(wù)卸載模型。然后分別定義了系統(tǒng)狀態(tài)集、動作集并推導了系統(tǒng)狀態(tài)轉(zhuǎn)移概率公式以及系統(tǒng)獎勵函數(shù)，其次基于貝爾曼方程利用值迭代算法求解SMDP模型獲得最優(yōu)的任務(wù)卸載策略。該方案計算復雜度適中，系統(tǒng)模型合理，充分考慮了任務(wù)如何分配以及任務(wù)卸載過程中涉及到的各種時延。仿真結(jié)果表明，該方案在保證任務(wù)卸載時延的前提下，能獲得更大的系統(tǒng)長期收益。
6. 包括運用部分可觀察馬爾可夫決策過程模型示例的自主車輛操作管理
- 日產(chǎn)北美公司
- 馬薩諸塞大學
- 公開公告日期：2022.11.29
- 摘要：自主車輛操作管理可以包括由自主車輛穿越車輛交通運輸網(wǎng)。穿越所述車輛交通運輸網(wǎng)可以包括：運用特定情景操作控制評估模塊示例，其中，所述特定情景操作控制評估模塊示例是特定情景操作控制評估模塊的示例，其中，所述特定情景操作控制評估模塊實施部分可觀察馬爾可夫決策過程。穿越所述車輛交通運輸網(wǎng)包括：接收來自于所述特定情景操作控制評估模塊示例的候選的車輛控制動作；并且基于所述候選的車輛控制動作來穿越所述車輛交通運輸網(wǎng)的一部分。
7. 使用分層選項馬爾可夫決策過程的交叉路口自主駕駛決策
- 通用汽車環(huán)球科技運作有限責任公司
- 卡內(nèi)基梅隆大學
- 公開公告日期：2020-02-18
- 摘要：本發(fā)明涉及使用分層選項馬爾可夫決策過程的交叉路口自主駕駛決策。提供了一種自主車輛(AV)中的方法。該方法包括：從車輛傳感器數(shù)據(jù)和道路幾何數(shù)據(jù)，確定多個距離測量和障礙物速度數(shù)據(jù)；確定車輛狀態(tài)數(shù)據(jù)，其中，車輛狀態(tài)數(shù)據(jù)包括自主車輛的速度、到停止線的距離、到交叉路口的中點的距離以及到目標的距離；基于多個距離測量、障礙物速度數(shù)據(jù)以及車輛狀態(tài)數(shù)據(jù)，確定離散行為動作的集合以及與各離散行為動作關(guān)聯(lián)的獨特軌跡控制動作；選擇要執(zhí)行的離散行為動作以及獨特軌跡控制動作；以及向車輛控制器傳遞消息，所述車輛控制器傳遞與所述離散行為動作關(guān)聯(lián)的所述選擇的獨特軌跡控制動作。
8. 基于馬爾可夫決策過程的輔助決策系統(tǒng)和方法
- 合肥工業(yè)大學
- 公開公告日期：2020-09-04
- 摘要：本發(fā)明提供一種基于馬爾可夫決策過程的輔助決策系統(tǒng)和方法，涉及輔助決策技術(shù)領(lǐng)域。本發(fā)明包括用于獲取病患信息和醫(yī)療資源信息的信息獲取模塊，用于基于病患信息和醫(yī)療資源信息構(gòu)建馬爾可夫決策模型的決策模型構(gòu)建模塊，和用于基于馬爾可夫決策模型選取病患的最佳治療方案的方案選取模塊。本發(fā)明通過方案選取模塊中的馬爾可夫決策模型為慢性腎臟病患者選取最佳的治療方案，不僅為醫(yī)護工作者提供了精確的計算機輔助決策，有效避免了現(xiàn)有技術(shù)中根據(jù)臨床經(jīng)驗主觀的為患者選擇治療方案的過程中因主觀因素而致選擇的治療方案存在一定的誤差，造成治療效果不理想。且有效地為醫(yī)護人員減輕了工作負擔，有效緩解了醫(yī)療壓力。
9. 基于馬爾可夫決策過程的輸變電設(shè)備最佳檢修決策方法
- 國網(wǎng)山東省電力公司電力科學研究院
- 上海交通大學
- 國網(wǎng)山東省電力公司
- 國家電網(wǎng)公司
- 公開公告日期：2017-02-22
- 摘要：本發(fā)明公開了一種基于馬爾可夫決策過程的輸變電設(shè)備最佳檢修決策方法，包括：建立不同狀態(tài)之間的轉(zhuǎn)移關(guān)系的輸變電設(shè)備狀態(tài)轉(zhuǎn)移關(guān)系圖；根據(jù)輸變電設(shè)備狀態(tài)轉(zhuǎn)移關(guān)系圖建立輸變電設(shè)備狀態(tài)檢修模型；利用馬爾可夫過程求解輸變電設(shè)備不同狀態(tài)的穩(wěn)態(tài)概率；建立檢修策略以及檢修策略對應(yīng)的報酬之間的函數(shù)關(guān)系式；以在檢修策略下使得報酬序列的某個函數(shù)值最大為序列決策問題的目標建立基于馬爾可夫的輸變電設(shè)備檢修決策模型；根據(jù)輸變電設(shè)備不同狀態(tài)的穩(wěn)態(tài)概率，采用策略迭代法求解最優(yōu)的檢修決策。本發(fā)明有益效果：應(yīng)用馬爾可夫決策可以折中維修成本和故障損失，得到經(jīng)濟最優(yōu)的檢修決策，為檢修決策人員提供參考。
10. 一種基于馬爾可夫決策過程的PoW共識協(xié)議安全評估方法
- 東南大學
- 公開公告日期：2022-05-17
- 摘要：本發(fā)明涉及一種基于馬爾可夫決策過程的PoW共識協(xié)議安全評估方法,首先使用爬蟲從對應(yīng)的PoW共識協(xié)議應(yīng)用瀏覽器中爬取得到區(qū)塊鏈應(yīng)用網(wǎng)絡(luò)環(huán)境的實時數(shù)據(jù)，通過ns3網(wǎng)絡(luò)模擬器編程模擬待評估的區(qū)塊鏈應(yīng)用的網(wǎng)絡(luò)環(huán)境，包括挖礦過程和交易過程的模擬，獲得模擬實驗結(jié)果值。再和PoW共識協(xié)議的其它一些仿真參數(shù)一起直接輸入到MDP模型的模擬器中。利用MDP模型模擬誠實礦工和惡意礦工的挖礦過程、交易過程和惡意礦工的攻擊過程，通過目標函數(shù)量化共識協(xié)議抗攻擊能力得到共識協(xié)議安全的一輪評估結(jié)果后判斷是否到達預設(shè)定的閾值并調(diào)整下輪的輸入?yún)?shù)。經(jīng)過固定輪次的馬爾可夫決策過程，給PoW共識協(xié)議的創(chuàng)建者提供該共識協(xié)議的修改建議。

国产bbaaaaa片,成年美女黄网站色视频免费,成年黄大片,а天堂中文最新一区二区三区,成人精品视频一区二区三区尤物

馬爾可夫決策過程

馬爾可夫決策過程—發(fā)文量

馬爾可夫決策過程—發(fā)文趨勢圖

馬爾可夫決策過程-研究學者

馬爾可夫決策過程-相關(guān)主題

馬爾可夫決策過程-相關(guān)期刊

馬爾可夫決策過程-相關(guān)會議

馬爾可夫決策過程
-研究學者

馬爾可夫決策過程
-相關(guān)主題

馬爾可夫決策過程
-相關(guān)期刊

馬爾可夫決策過程
-相關(guān)會議