国产bbaaaaa片,成年美女黄网站色视频免费,成年黄大片,а天堂中文最新一区二区三区,成人精品视频一区二区三区尤物

您現(xiàn)在的位置: 首頁> 研究主題> 馬爾可夫決策過程

馬爾可夫決策過程

馬爾可夫決策過程的相關(guān)文獻在1998年到2022年內(nèi)共計241篇,主要集中在自動化技術(shù)、計算機技術(shù)、無線電電子學、電信技術(shù)、電工技術(shù) 等領(lǐng)域,其中期刊論文207篇、會議論文11篇、專利文獻89732篇;相關(guān)期刊112種,包括運籌與管理、系統(tǒng)工程與電子技術(shù)、電力系統(tǒng)自動化等; 相關(guān)會議10種,包括2012中國計算機大會、2006年全國第十屆企業(yè)信息化與工業(yè)工程學術(shù)年會、第五屆中國青年運籌與管理學者大會等;馬爾可夫決策過程的相關(guān)文獻由738位作者貢獻,包括朱江、王浩、丁家滿等。

馬爾可夫決策過程—發(fā)文量

期刊論文>

論文:207 占比:0.23%

會議論文>

論文:11 占比:0.01%

專利文獻>

論文:89732 占比:99.76%

總計:89950篇

馬爾可夫決策過程—發(fā)文趨勢圖

馬爾可夫決策過程

-研究學者

  • 朱江
  • 王浩
  • 丁家滿
  • 關(guān)永
  • 劉甜甜
  • 吳瓊
  • 唐昊
  • 姚宏亮
  • 姜瑛
  • 官蕊
  • 期刊論文
  • 會議論文
  • 專利文獻

搜索

排序:

年份

    • 周琴; 羅飛; 丁煒超; 顧春華; 鄭帥
    • 摘要: Q-Learning是目前一種主流的強化學習算法,但其在隨機環(huán)境中收斂速度不佳,之前的研究針對Speedy Q-Learning存在的過估計問題進行改進,提出了Double Speedy Q-Learning算法。但Double Speedy Q-Learning算法并未考慮隨機環(huán)境中存在的自循環(huán)結(jié)構(gòu),即代理執(zhí)行動作時,存在進入當前狀態(tài)的概率,這將不利于代理在隨機環(huán)境中學習,從而影響算法的收斂速度。針對Double Speedy Q-Learning中存在的自循環(huán)結(jié)構(gòu),利用逐次超松弛技術(shù)對Double Speedy Q-Learning算法的Bellman算子進行改進,提出基于逐次超松弛技術(shù)的Double Speedy Q-Learning算法(Double Speedy Q-Learning based on Successive Over Relaxation,DSQL-SOR),進一步提升了Double Speedy Q-Learning算法的收斂速度。通過數(shù)值實驗將DSQL-SOR與其他算法的實際獎勵和期望獎勵之間的誤差進行對比,實驗結(jié)果表明,所提算法比現(xiàn)有主流的算法SQL的誤差低0.6,比逐次超松弛算法GSQL低0.5,這表明DSQL-SOR算法的性能較其他算法更優(yōu)。實驗同時對DSQL-SOR算法的可拓展性進行測試,當狀態(tài)空間從10增加到1000時,每次迭代的平均時間增長緩慢,始終維持在10^(-4)數(shù)量級上,表明DSQL-SOR的可拓展性較強。
    • 張文沛; 崔鵬浩; 李洋; 延爽
    • 摘要: 預測性維護決策旨在提高維護效率的同時,降低維護停機對生產(chǎn)的影響。預測性維護根據(jù)設(shè)備的實際健康狀態(tài)進行維護決策,能有效避免過度維護造成的浪費和維護不及時造成的設(shè)備隨機故障。然而類似于設(shè)備故障停機,預測性維護需要關(guān)閉設(shè)備進行維護作業(yè)。如果維護時機選擇不當,維護過程會引起生產(chǎn)線的饑餓和阻塞,造成生產(chǎn)損失。因此,預測性維護不僅需要關(guān)注設(shè)備自身的維護需求,還需要與實際生產(chǎn)進行聯(lián)動。以考慮機器狀態(tài)劣化的航空產(chǎn)品流水線為研究對象,在流水線產(chǎn)出損失分析的基礎(chǔ)上,研究流水線預測性維護決策問題。首先,針對缺料停機、設(shè)備故障等擾動停機事件和預測性維護事件,分析停機事件對流水線產(chǎn)出的影響,量化造成的流水線產(chǎn)出損失。其次,考慮流水線產(chǎn)出損失和維護成本構(gòu)建獎勵函數(shù),建立基于馬爾可夫決策過程的流水線預測性維護決策模型,結(jié)合深度Q網(wǎng)絡(luò)算法求解模型獲得優(yōu)化決策方案。最后,通過仿真試驗對比其他三種維護方法,驗證了所提出決策模型的有效性。
    • 宋兆涵; 張德智
    • 摘要: 主要研究適用于無初始時隙分配和無固定時間基準終端的分布式空間飛行器自組網(wǎng)的初始組網(wǎng)策略。針對空間飛行器網(wǎng)絡(luò)拓撲范圍大、節(jié)點數(shù)目少、協(xié)同組網(wǎng)任務(wù)具有臨時性、可靠性要求高等特點,提出了一種基于時分多址(Time Division Multiple Access,TDMA)的競爭式組網(wǎng)策略,并建立馬爾可夫決策模型計算出最優(yōu)競爭概率,完成網(wǎng)絡(luò)的快速建立。仿真結(jié)果表明,所提出的競爭式時分多址組網(wǎng)策略具有網(wǎng)絡(luò)建立時間短、組網(wǎng)過程可靠性高的特點,提高了網(wǎng)絡(luò)的快速性、靈活性和安全性。
    • 張明杰; 朱江
    • 摘要: 以提高無線傳感器網(wǎng)絡(luò)中任務(wù)處理的能效為目標,提出了一種近似最優(yōu)化的任務(wù)處理機制,無線傳感器節(jié)點可根據(jù)任務(wù)緩存區(qū)的任務(wù)數(shù)量、信道條件,動態(tài)地實現(xiàn)任務(wù)向邊緣服務(wù)器的卸載以及本地處理。將任務(wù)處理機制建模為馬爾可夫決策過程,因為無線傳感器節(jié)點不知道此過程的狀態(tài)轉(zhuǎn)移概率,所以采用A3C算法以實現(xiàn)在環(huán)境參數(shù)未知情況下的探索和學習,從而得到近似最優(yōu)的任務(wù)處理策略。仿真結(jié)果表明,與其他機制相比,所提任務(wù)處理機制能提高節(jié)點能效,且收斂速度更快。
    • 李學明; 吳國豪; 周尚波; 林曉然; 謝洪斌
    • 摘要: 針對目前的分數(shù)階非線性模型圖像特征提取能力不足導致分割精度較低的問題,提出一種基于分數(shù)階網(wǎng)絡(luò)和強化學習(RL)的圖像實例分割模型,用來分割出圖像中目標實例的高質(zhì)量輪廓曲線。該模型共包含兩層模塊:1)第一層為二維分數(shù)階非線性網(wǎng)絡(luò),主要采用混沌同步方法來獲取圖像中像素點的基礎(chǔ)特征,并通過根據(jù)像素點間的相似性進行耦合連接的方式獲取初步的圖像分割結(jié)果;2)第二層通過RL思想將圖像實例分割建立為一個馬爾可夫決策過程(MDP),并利用建模過程中的動作?狀態(tài)對、獎勵函數(shù)和策略的設(shè)計來獲取圖像的區(qū)域結(jié)構(gòu)和類別信息。最后將第一層獲取到的像素特征和初步的圖像分割結(jié)果與第二層獲取到的區(qū)域結(jié)構(gòu)和類別信息聯(lián)合起來進行實例分割。在Pascal VOC2007和Pascal VOC2012數(shù)據(jù)集上的實驗結(jié)果表明,這種基于連續(xù)決策的圖像實例分割模型與傳統(tǒng)的分數(shù)階模型相比,平均精度(AP)至少提升了15個百分點,不僅能夠獲取圖像中目標物體的類別信息,而且進一步提升了對圖像輪廓細節(jié)和細粒度信息的提取能力。
    • 謝芳; 徐哲; 于靜
    • 摘要: 可更新資源可用量的不確定是項目調(diào)度中普遍面臨的問題,本文在隨機資源可用量和活動多模式的約束下,考慮到活動可中斷的情形,基于馬爾可夫決策過程理論構(gòu)建以最小化項目期望工期為目標的隨機調(diào)度模型,針對問題特征設(shè)計以動態(tài)活動-模式優(yōu)先規(guī)則和串行調(diào)度生成機制相結(jié)合的啟發(fā)式算法作為基準策略的Rollout算法,并針對PSLIB的J30算例集展開實驗研究。研究發(fā)現(xiàn):隨著資源可用量變化波動的增大,項目工期、活動中斷次數(shù)以及問題的求解難度也隨之增加;雖然考慮活動中斷的優(yōu)先規(guī)則在解決確定型問題時的表現(xiàn)優(yōu)于不考慮活動中斷的優(yōu)先規(guī)則,但對于隨機問題的效果卻相反;本文提出的算法對于資源需求小或資源供應(yīng)充足的情形求解效果更佳。本研究可以有效利用項目進度信息為項目管理者提供高質(zhì)量的動態(tài)決策依據(jù)。
    • 官蕊; 丁家滿; 賈連??; 游進國; 姜瑛
    • 摘要: 推薦算法在一定程度上解決了信息過載問題,但傳統(tǒng)推薦模型在挖掘數(shù)據(jù)特性方面有待改進。為此,結(jié)合強化學習方法提出一種融合序列模式評分的策略梯度推薦算法。將推薦過程建模為馬爾可夫決策過程;分析推薦基礎(chǔ)數(shù)據(jù)特性模式,設(shè)計以序列模式評分為獎勵的反饋函數(shù),在算法的每一次迭代過程中學習;通過對累積獎勵設(shè)計標準化操作來降低策略梯度的方差。將該方法應(yīng)用到電影推薦中進行驗證,結(jié)果表明所提方法具有較好的推薦準確性。
    • 劉奇; 馬嬈; 俞凱
    • 摘要: 自然語言生成是目前非常重要且具有挑戰(zhàn)性的一類人工智能任務(wù).長短時記憶(Long Short-Term Memory,LSTM)語言模型是目前最為主流的自然語言生成模型.但是,LSTM語言模型的訓練準則是詞語級別的交叉熵,這會導致暴露偏差問題.此外,一般自然語言生成任務(wù)的評測指標是序列級別的BLEU分數(shù)或者詞錯誤率,這與訓練使用的交叉熵準則也不匹配.在本文中,我們使用馬爾可夫決策過程重定義了自然語言生成問題,并通過從訓練數(shù)據(jù)中提取的先驗控制向量來指導生成過程.先驗控制向量可以視作是對序列空間的一種先驗劃分的抽象,通過在自然語言生成中引入先驗控制向量,我們可以更好的約束自然語言生成的空間.再通過馬爾可夫決策過程的定義,我們可以使用策略梯度算法來直接使用測試使用的BLEU分數(shù)來代替交叉熵訓練LSTM網(wǎng)絡(luò).在多個數(shù)據(jù)集上的實驗顯示本文提出的方法相比于普通使用LSTM語言模型的基線系統(tǒng)在BLEU分數(shù)上有大約絕對2%~3%的提升.
    • 夏天; 黃冠; 李穎
    • 摘要: 針對大型醫(yī)用設(shè)備人工管理效率低、無法滿足應(yīng)急調(diào)度需求的問題,文中提出了基于深度強化學習算法的醫(yī)用設(shè)備應(yīng)急調(diào)度優(yōu)化技術(shù)。使用物聯(lián)網(wǎng)技術(shù)采集大型醫(yī)用設(shè)備日常使用的各類參數(shù),作為后續(xù)調(diào)度優(yōu)化算法的樣本數(shù)據(jù)。通過對醫(yī)用設(shè)備調(diào)度問題的分析,采用馬爾可夫決策過程作為調(diào)度優(yōu)化算法的基礎(chǔ)模型,并給出了狀態(tài)空間、動作空間以及獎懲函數(shù)的定義。同時,以貪婪策略作為強化學習的動作探索策略,使用Tanh函數(shù)作為激活函數(shù),從而提高了對非線性復雜數(shù)據(jù)的學習能力;使用DDPG算法在經(jīng)驗數(shù)據(jù)中獲得價值估計和行為估計。經(jīng)測試,文中所提出的醫(yī)用設(shè)備應(yīng)急調(diào)度優(yōu)化算法可合理安排醫(yī)用設(shè)備的使用,提高其綜合利用率,與未使用應(yīng)急調(diào)度算法的情況對比,檢查耗時平均縮短了31.2%。
    • 馮昌森; 張瑜; 謝路耀; 文福拴; 張凱怡; 張有兵
    • 摘要: 隨著可再生能源發(fā)電滲透率的不斷增大,配電系統(tǒng)的電壓越限問題愈發(fā)頻繁,亟需高效的電壓管理策略以保證配電系統(tǒng)的安全經(jīng)濟運行。首先,文中建立了雙時間尺度的配電系統(tǒng)電壓管理模型,實現(xiàn)不同時間響應(yīng)特性的調(diào)壓設(shè)備協(xié)調(diào)控制。然后,將2個時間尺度的電壓管理模型建模為馬爾可夫決策過程,在有效考慮兩者的時間耦合關(guān)系和可控設(shè)備物理特性的基礎(chǔ)上,分別利用多智能體深度確定性策略梯度算法和雙深度Q網(wǎng)絡(luò)算法求解模型,實現(xiàn)了雙時間尺度的實時電壓管理。最后,基于IEEE 33節(jié)點配電系統(tǒng)進行算例分析,驗證了所提模型和方法的有效性。
  • 查看更多

客服郵箱:kefu@zhangqiaokeyan.com

京公網(wǎng)安備:11010802029741號 ICP備案號:京ICP備15016152號-6 六維聯(lián)合信息科技 (北京) 有限公司?版權(quán)所有
  • 客服微信

  • 服務(wù)號