| 專利名稱 |
一種基于深度強化學(xué)習(xí)的機器人路徑規(guī)劃方法 |
| 申請?zhí)?專利號 |
CN202510681542.8 |
專利權(quán)人(第一權(quán)利人) |
長春工業(yè)大學(xué) |
| 申請日 |
2025-05-26 |
授權(quán)日 |
2025-12-12 |
| 專利類別 |
授權(quán)發(fā)明 |
戰(zhàn)略新興產(chǎn)業(yè)分類 |
新一代信息技術(shù) |
| 技術(shù)主題 |
機器人路徑規(guī)劃|機器人|路徑計劃|農(nóng)業(yè)環(huán)境|自適應(yīng)|運籌學(xué)|強化學(xué)習(xí)|多模態(tài)|微分對策|實時計算|網(wǎng)絡(luò)參數(shù) |
| 應(yīng)用領(lǐng)域 |
車輛位置/路線/高度控制|位置/方向控制 |
| 意向價格 |
具體面議 |
| 專利概述 |
本發(fā)明公開一種基于深度強化學(xué)習(xí)的機器人路徑規(guī)劃方法,涉及智慧農(nóng)業(yè),路徑規(guī)劃,機器人等領(lǐng)域。首先進行農(nóng)場環(huán)境感知與定義機器人狀態(tài)空間與動作空間,并設(shè)置多模態(tài)加權(quán)組合獎勵機制與經(jīng)驗回放緩沖區(qū)。在傳統(tǒng)DDPG算法中的Critic網(wǎng)絡(luò)損失函數(shù)中引入可學(xué)習(xí)的權(quán)重系數(shù),并在Actor網(wǎng)絡(luò)的目標(biāo)函數(shù)中加入熵正則化項,再通過自適應(yīng)衰減貪心策略選擇微分博弈生成控制策略或DDPG算法生成動作,最后執(zhí)行動作或控制策略,更新網(wǎng)絡(luò)參數(shù)與目標(biāo)網(wǎng)絡(luò)參數(shù),并動態(tài)更新經(jīng)驗回放緩沖區(qū)。與其他路徑規(guī)劃方法相比,本方提高了路徑規(guī)劃對動態(tài)環(huán)境的適應(yīng)性,在復(fù)雜的農(nóng)業(yè)環(huán)境下,也具備良好的效率及安全性。 |
| 圖片資料 |
|
| 合作方式 |
具體面議 |
| 聯(lián)系人 |
戚梅宇 |
聯(lián)系電話 |
13074363281 |