專利名稱 一種基于深度強化學(xué)習(xí)的機器人路徑規(guī)劃方法
申請?zhí)?專利號 CN202510681542.8 專利權(quán)人(第一權(quán)利人) 長春工業(yè)大學(xué)
申請日 2025-05-26 授權(quán)日 2025-12-12
專利類別 授權(quán)發(fā)明 戰(zhàn)略新興產(chǎn)業(yè)分類 新一代信息技術(shù)
技術(shù)主題 機器人路徑規(guī)劃|機器人|路徑計劃|農(nóng)業(yè)環(huán)境|自適應(yīng)|運籌學(xué)|強化學(xué)習(xí)|多模態(tài)|微分對策|實時計算|網(wǎng)絡(luò)參數(shù)
應(yīng)用領(lǐng)域 車輛位置/路線/高度控制|位置/方向控制
意向價格 具體面議
專利概述 本發(fā)明公開一種基于深度強化學(xué)習(xí)的機器人路徑規(guī)劃方法,涉及智慧農(nóng)業(yè),路徑規(guī)劃,機器人等領(lǐng)域。首先進行農(nóng)場環(huán)境感知與定義機器人狀態(tài)空間與動作空間,并設(shè)置多模態(tài)加權(quán)組合獎勵機制與經(jīng)驗回放緩沖區(qū)。在傳統(tǒng)DDPG算法中的Critic網(wǎng)絡(luò)損失函數(shù)中引入可學(xué)習(xí)的權(quán)重系數(shù),并在Actor網(wǎng)絡(luò)的目標(biāo)函數(shù)中加入熵正則化項,再通過自適應(yīng)衰減貪心策略選擇微分博弈生成控制策略或DDPG算法生成動作,最后執(zhí)行動作或控制策略,更新網(wǎng)絡(luò)參數(shù)與目標(biāo)網(wǎng)絡(luò)參數(shù),并動態(tài)更新經(jīng)驗回放緩沖區(qū)。與其他路徑規(guī)劃方法相比,本方提高了路徑規(guī)劃對動態(tài)環(huán)境的適應(yīng)性,在復(fù)雜的農(nóng)業(yè)環(huán)境下,也具備良好的效率及安全性。
圖片資料 一種基于深度強化學(xué)習(xí)的機器人路徑規(guī)劃方法
合作方式 具體面議
聯(lián)系人 戚梅宇 聯(lián)系電話 13074363281