| 專利名稱 |
復(fù)雜動態(tài)環(huán)境下基于強化學(xué)習(xí)的機器人自主導(dǎo)航的模型訓(xùn)練方法 |
| 申請?zhí)?專利號 |
CN202511063822.9 |
專利權(quán)人(第一權(quán)利人) |
長春工業(yè)大學(xué) |
| 申請日 |
2025-07-31 |
授權(quán)日 |
2025-10-10 |
| 專利類別 |
授權(quán)發(fā)明 |
戰(zhàn)略新興產(chǎn)業(yè)分類 |
新一代信息技術(shù) |
| 技術(shù)主題 |
機器人|學(xué)習(xí)機|決策網(wǎng)絡(luò)|訓(xùn)練方法|強化學(xué)習(xí)|仿真|多目標(biāo)|游戲結(jié)構(gòu) |
| 應(yīng)用領(lǐng)域 |
導(dǎo)航計算工具|設(shè)計優(yōu)化/仿真|推理方法|神經(jīng)學(xué)習(xí)方法 |
| 意向價格 |
具體面議 |
| 專利概述 |
本發(fā)明公開了一種復(fù)雜動態(tài)環(huán)境的基于強化學(xué)習(xí)的機器人自主導(dǎo)航方法,涉及強化學(xué)習(xí)、機器人導(dǎo)航等技術(shù)領(lǐng)域。本發(fā)明旨在解決多目標(biāo)強化學(xué)習(xí)中,目標(biāo)之間存在沖突,導(dǎo)致導(dǎo)航策略難以動態(tài)權(quán)衡、決策靈活性不足的問題。首先,創(chuàng)建仿真環(huán)境并構(gòu)建Bayesian?RVO模型用于對仿真環(huán)境中的行人行為模擬;其次,引入博弈論中的均衡響應(yīng)原理設(shè)計獎勵函數(shù)并構(gòu)建博弈論框架;然后,設(shè)計基于Stackelberg博弈結(jié)構(gòu)的雙層決策網(wǎng)絡(luò);在此基礎(chǔ)上,引入BNN結(jié)構(gòu)的Critic網(wǎng)絡(luò);最后,進行模型訓(xùn)練。與現(xiàn)有方法相比,本發(fā)明在復(fù)雜環(huán)境下表現(xiàn)出更高的導(dǎo)航成功率、更低的碰撞率和更強的路徑合理性,顯著提升了機器人在復(fù)雜環(huán)境中的自主導(dǎo)航性能,可應(yīng)用于農(nóng)業(yè)、工業(yè)、服務(wù)業(yè)等領(lǐng)域。 |
| 圖片資料 |
|
| 合作方式 |
具體面議 |
| 聯(lián)系人 |
戚梅宇 |
聯(lián)系電話 |
13074363281 |