本發(fā)明涉及機(jī)器人控制和多智能體強(qiáng)化學(xué)習(xí)技術(shù),特別是涉及一種用于多任務(wù)場(chǎng)景下的多機(jī)器人控制方法。
背景技術(shù):
1、近年來(lái),多智能體強(qiáng)化學(xué)習(xí)(marl)在多機(jī)器人協(xié)同控制領(lǐng)域取得顯著進(jìn)展,但在動(dòng)態(tài)多任務(wù)場(chǎng)景(如倉(cāng)儲(chǔ)機(jī)器人集群需同時(shí)處理貨物分揀、路徑避障、故障恢復(fù)等異構(gòu)任務(wù))中面臨策略表示沖突與計(jì)算效率失衡兩大核心瓶頸。現(xiàn)有方法在處理多任務(wù)耦合時(shí)存在系統(tǒng)性缺陷:
2、1.策略表示沖突問(wèn)題
3、現(xiàn)有單網(wǎng)絡(luò)架構(gòu)(如基于mappo的共享策略)強(qiáng)制所有任務(wù)共享同一參數(shù)空間,導(dǎo)致策略優(yōu)化時(shí)的梯度方向互斥。具體表現(xiàn)為:
4、任務(wù)間特征糾纏:不同任務(wù)的策略梯度在反向傳播時(shí)相互干擾(如搬運(yùn)任務(wù)需學(xué)習(xí)穩(wěn)定軌跡,而勘探任務(wù)需高探索性),致使網(wǎng)絡(luò)收斂至次優(yōu)解。
5、表示空間坍縮:通過(guò)注意力機(jī)制(如transformer)動(dòng)態(tài)調(diào)整權(quán)重的方法(如qtran變體),未約束任務(wù)專屬特征的正交性,導(dǎo)致高相似度任務(wù)(如不同載重的搬運(yùn))的特征向量余弦相似度>0.8,嚴(yán)重削弱策略特異性表達(dá)能力。
6、2.計(jì)算效率問(wèn)題
7、為了使不同任務(wù)之間相互解耦,可以為每個(gè)任務(wù)訓(xùn)練專用策略網(wǎng)絡(luò),其可以提升單任務(wù)性能,但參數(shù)量會(huì)隨著任務(wù)數(shù)量k線性增長(zhǎng),使得整個(gè)控制系統(tǒng)不夠輕量化。
8、3.遷移能力問(wèn)題
9、通過(guò)技能組合構(gòu)建多任務(wù)策略也是常見(jiàn)的技術(shù)方案,但其技能庫(kù)依賴離線預(yù)訓(xùn)練數(shù)據(jù)分布。當(dāng)在線任務(wù)超出數(shù)據(jù)覆蓋范圍(如新型貨物抓取),技能重組失敗率很高,無(wú)法實(shí)現(xiàn)跨任務(wù)知識(shí)遷移。
10、一種基于涌現(xiàn)混合專家模型的多任務(wù)強(qiáng)化學(xué)習(xí)方法,使用一種帶路由網(wǎng)絡(luò)的混合專家模型(moe),通過(guò)對(duì)專家聚類和策略梯度訓(xùn)練,實(shí)現(xiàn)任務(wù)到專家的動(dòng)態(tài)分配。這種基于moe的方案可以減少激活時(shí)的參數(shù)量,但是對(duì)于大量任務(wù),仍需較多的總參數(shù)量進(jìn)行學(xué)習(xí),不夠輕量化。
11、一種用于控制代理在與環(huán)境交互的同時(shí)執(zhí)行多個(gè)任務(wù)的強(qiáng)化學(xué)習(xí)方法,在多任務(wù)強(qiáng)化學(xué)習(xí)中利用元梯度學(xué)習(xí)動(dòng)作選擇的選項(xiàng),其中選項(xiàng)包括由代理在選項(xiàng)策略神經(jīng)網(wǎng)絡(luò)的控制下執(zhí)行的原始動(dòng)作序列。在實(shí)現(xiàn)中,在代理與環(huán)境交互的同時(shí),系統(tǒng)通過(guò)用于訓(xùn)練選項(xiàng)策略神經(jīng)網(wǎng)絡(luò)的元學(xué)習(xí)獎(jiǎng)勵(lì)來(lái)發(fā)現(xiàn)對(duì)多個(gè)不同任務(wù)有用的選項(xiàng)。該方法缺乏對(duì)策略網(wǎng)絡(luò)的解耦,會(huì)造成效果上的損失。
12、一種面向多任務(wù)強(qiáng)化學(xué)習(xí)的緩解災(zāi)難性遺忘的方法,通過(guò)為每個(gè)任務(wù)分配專用存儲(chǔ)器來(lái)存儲(chǔ)交互樣本,并基于當(dāng)前任務(wù)和過(guò)往任務(wù)的網(wǎng)絡(luò)梯度重新定義損失函數(shù),以此更新q值網(wǎng)絡(luò)的梯度,從而保持智能體對(duì)已學(xué)習(xí)任務(wù)的記憶能力。該方法解決了多任務(wù)學(xué)習(xí)中新任務(wù)覆蓋舊知識(shí)的問(wèn)題,但存在多個(gè)獨(dú)立存儲(chǔ)器和梯度計(jì)算帶來(lái)的網(wǎng)絡(luò)冗余問(wèn)題,顯著增加了計(jì)算成本和內(nèi)存占用,在大規(guī)模任務(wù)場(chǎng)景下的實(shí)用性受到限制。
13、需要說(shuō)明的是,在上述背景技術(shù)部分公開(kāi)的信息僅用于對(duì)本技術(shù)的背景的理解,因此可以包括不構(gòu)成對(duì)本領(lǐng)域普通技術(shù)人員已知的現(xiàn)有技術(shù)的信息。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的主要目的在于克服上述背景技術(shù)中存在的缺陷,提供一種用于多任務(wù)場(chǎng)景下的多機(jī)器人控制方法。
2、為實(shí)現(xiàn)上述目的,本發(fā)明采用以下技術(shù)方案:
3、一種用于多任務(wù)場(chǎng)景下的多機(jī)器人控制方法,包括以下步驟:
4、s1、構(gòu)建雙分支策略網(wǎng)絡(luò):包括通用策略網(wǎng)絡(luò)和任務(wù)專用策略網(wǎng)絡(luò);所述通用策略網(wǎng)絡(luò)通過(guò)多層感知機(jī)或圖神經(jīng)網(wǎng)絡(luò)處理機(jī)器人傳感器觀測(cè)數(shù)據(jù),提取跨任務(wù)共享的基礎(chǔ)行為特征;所述任務(wù)專用策略網(wǎng)絡(luò)的參數(shù)矩陣由超網(wǎng)絡(luò)根據(jù)離散任務(wù)標(biāo)識(shí)符動(dòng)態(tài)生成,用于適配機(jī)器人任務(wù)特異性行為的修正;
5、s2、策略融合與動(dòng)作生成:將通用策略網(wǎng)絡(luò)的輸出向量與任務(wù)專用策略網(wǎng)絡(luò)的修正量通過(guò)可調(diào)融合權(quán)重進(jìn)行加權(quán)求和,生成機(jī)器人最終控制動(dòng)作;
6、s3、強(qiáng)化學(xué)習(xí)集成訓(xùn)練:將雙分支網(wǎng)絡(luò)嵌入多智能體強(qiáng)化學(xué)習(xí)框架,通過(guò)機(jī)器人與環(huán)境交互數(shù)據(jù)聯(lián)合優(yōu)化網(wǎng)絡(luò)參數(shù);
7、s4、分布式策略部署:中央控制器分配任務(wù)標(biāo)識(shí)符,各機(jī)器人基于本地傳感器觀測(cè)和任務(wù)標(biāo)識(shí)符實(shí)時(shí)生成控制動(dòng)作。
8、進(jìn)一步地,步驟s1中:
9、所述通用策略網(wǎng)絡(luò)處理標(biāo)準(zhǔn)化后的多模態(tài)傳感器觀測(cè)數(shù)據(jù),包括激光雷達(dá)特征、關(guān)節(jié)狀態(tài)及位姿信息;
10、所述超網(wǎng)絡(luò)以任務(wù)標(biāo)識(shí)符為輸入,通過(guò)線性輸出層生成任務(wù)專用策略網(wǎng)絡(luò)的全連接層權(quán)重矩陣,經(jīng)維度重塑后直接應(yīng)用于策略計(jì)算。
11、進(jìn)一步地,步驟s2具體包括:
12、所述任務(wù)專用策略網(wǎng)絡(luò)通過(guò)非線性激活函數(shù)約束輸出修正量的數(shù)值范圍;
13、融合權(quán)重在訓(xùn)練初期設(shè)置為接近1的數(shù)值以通用策略為主導(dǎo),隨訓(xùn)練進(jìn)程逐步降低以增強(qiáng)任務(wù)特異性。
14、進(jìn)一步地,步驟s3包括以下處理機(jī)制中的一種或多種:
15、a)數(shù)據(jù)預(yù)處理:對(duì)觀測(cè)數(shù)據(jù)執(zhí)行均值方差標(biāo)準(zhǔn)化,并對(duì)獎(jiǎng)勵(lì)值進(jìn)行符號(hào)保留的幅值裁剪;
16、b)策略優(yōu)化:采用裁剪目標(biāo)函數(shù)優(yōu)化執(zhí)行者網(wǎng)絡(luò),通過(guò)通用優(yōu)勢(shì)估計(jì)計(jì)算時(shí)序差分誤差優(yōu)化評(píng)價(jià)者網(wǎng)絡(luò);
17、c)參數(shù)更新:任務(wù)專用策略網(wǎng)絡(luò)的梯度僅通過(guò)超網(wǎng)絡(luò)反向傳播,通用策略網(wǎng)絡(luò)獨(dú)立更新參數(shù)。
18、進(jìn)一步地,所述策略優(yōu)化具體包括:
19、執(zhí)行者損失函數(shù)包含策略比率裁剪機(jī)制,限制策略更新幅度;
20、評(píng)價(jià)者損失函數(shù)采用目標(biāo)價(jià)值網(wǎng)絡(luò)的時(shí)序差分誤差平方損失。
21、進(jìn)一步地,所述超網(wǎng)絡(luò)通過(guò)以下機(jī)制實(shí)現(xiàn)參數(shù)動(dòng)態(tài)生成:
22、采用多層感知機(jī)結(jié)構(gòu),隱藏層施加非線性激活;
23、輸出層通過(guò)無(wú)激活線性層生成向量,經(jīng)重塑操作形成任務(wù)專用策略網(wǎng)絡(luò)權(quán)重矩陣。
24、進(jìn)一步地,步驟s4具體包括:
25、評(píng)價(jià)者網(wǎng)絡(luò)增加任務(wù)標(biāo)識(shí)符輸入通道以適配多任務(wù)價(jià)值估計(jì);
26、各機(jī)器人獨(dú)立執(zhí)行雙分支網(wǎng)絡(luò)前向計(jì)算,實(shí)時(shí)輸出動(dòng)作控制機(jī)械單元。
27、一種用于多任務(wù)場(chǎng)景下的多機(jī)器人控制方法,包括以下步驟:
28、s1、構(gòu)建任務(wù)專用策略網(wǎng)絡(luò):所述任務(wù)專用策略網(wǎng)絡(luò)的參數(shù)矩陣由超網(wǎng)絡(luò)根據(jù)離散任務(wù)標(biāo)識(shí)符動(dòng)態(tài)生成,用于直接適配機(jī)器人任務(wù)特異性行為;
29、s2、動(dòng)作生成:將任務(wù)專用策略網(wǎng)絡(luò)的輸出作為機(jī)器人最終控制動(dòng)作;
30、s3、強(qiáng)化學(xué)習(xí)集成訓(xùn)練:將任務(wù)專用策略網(wǎng)絡(luò)嵌入多智能體強(qiáng)化學(xué)習(xí)框架,通過(guò)機(jī)器人與環(huán)境交互數(shù)據(jù)聯(lián)合優(yōu)化網(wǎng)絡(luò)參數(shù);
31、s4、分布式策略部署:中央控制器分配任務(wù)標(biāo)識(shí)符,各機(jī)器人基于本地傳感器觀測(cè)和任務(wù)標(biāo)識(shí)符實(shí)時(shí)生成控制動(dòng)作。
32、一種用于多任務(wù)場(chǎng)景下的多機(jī)器人控制方法,包括以下步驟:
33、s1、構(gòu)建級(jí)聯(lián)策略網(wǎng)絡(luò):通用策略網(wǎng)絡(luò)處理機(jī)器人傳感器觀測(cè)數(shù)據(jù),輸出跨任務(wù)共享的特征表示;任務(wù)專用策略網(wǎng)絡(luò)以所述特征表示和任務(wù)標(biāo)識(shí)符為聯(lián)合輸入,其參數(shù)矩陣由超網(wǎng)絡(luò)根據(jù)離散任務(wù)標(biāo)識(shí)符動(dòng)態(tài)生成,用于生成機(jī)器人最終控制動(dòng)作;
34、s2、強(qiáng)化學(xué)習(xí)集成訓(xùn)練:將級(jí)聯(lián)網(wǎng)絡(luò)嵌入多智能體強(qiáng)化學(xué)習(xí)框架,通過(guò)機(jī)器人與環(huán)境交互數(shù)據(jù)聯(lián)合優(yōu)化網(wǎng)絡(luò)參數(shù);
35、s3、分布式策略部署:中央控制器分配任務(wù)標(biāo)識(shí)符,各機(jī)器人基于本地傳感器觀測(cè)和任務(wù)標(biāo)識(shí)符實(shí)時(shí)生成控制動(dòng)作。
36、所述方法應(yīng)用于以下任一場(chǎng)景中:倉(cāng)儲(chǔ)機(jī)器人集群的貨物分揀、避障及故障恢復(fù)任務(wù)動(dòng)態(tài)切換;工業(yè)機(jī)械臂的裝配操作與異常檢測(cè)任務(wù)并行執(zhí)行;邊緣計(jì)算設(shè)備的多模態(tài)感知任務(wù)協(xié)同處理。
37、一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序由處理器執(zhí)行時(shí)實(shí)現(xiàn)所述的用于多任務(wù)場(chǎng)景下的多機(jī)器人控制方法。
38、本發(fā)明具有如下有益效果:
39、本發(fā)明提出一種用于多任務(wù)場(chǎng)景下的多機(jī)器人控制方法,創(chuàng)新地設(shè)計(jì)了面向多機(jī)器人系統(tǒng)的多任務(wù)強(qiáng)化學(xué)習(xí)控制架構(gòu),在多機(jī)器人協(xié)同控制領(lǐng)域?qū)崿F(xiàn)了高效計(jì)算與高性能的統(tǒng)一突破。本發(fā)明的核心在于利用超網(wǎng)絡(luò)動(dòng)態(tài)生成任務(wù)專用參數(shù),在保持系統(tǒng)總計(jì)算量恒定的前提下,精準(zhǔn)適配多任務(wù)場(chǎng)景需求:對(duì)于包含通用策略網(wǎng)絡(luò)的雙分支架構(gòu),通過(guò)共享通用特征提取器與超網(wǎng)絡(luò)參數(shù),使參數(shù)量獨(dú)立于任務(wù)數(shù)量;對(duì)于移除通用策略網(wǎng)絡(luò)的簡(jiǎn)化方案,則完全依賴超網(wǎng)絡(luò)動(dòng)態(tài)生成參數(shù)維持輕量化特性。這種創(chuàng)新機(jī)制徹底解決了傳統(tǒng)方法(如混合專家模型需增加專家數(shù)量、獨(dú)立存儲(chǔ)器方案需線性增長(zhǎng)存儲(chǔ))隨任務(wù)擴(kuò)展導(dǎo)致的資源膨脹問(wèn)題。
40、在性能層面,該控制架構(gòu)利用雙分支協(xié)同機(jī)制實(shí)現(xiàn)顯著提升:通用策略網(wǎng)絡(luò)顯式建??缛蝿?wù)共性特征(如協(xié)作避障、路徑規(guī)劃),為多任務(wù)處理奠定基礎(chǔ);任務(wù)專用網(wǎng)絡(luò)則借助超網(wǎng)絡(luò)動(dòng)態(tài)參數(shù),針對(duì)特異性需求(如分揀力度、搬運(yùn)速度)進(jìn)行精準(zhǔn)修正。實(shí)際測(cè)試表明,在涵蓋多類異構(gòu)任務(wù)的復(fù)雜場(chǎng)景測(cè)試中(如足球?qū)沟?實(shí)現(xiàn)性能全面優(yōu)化:在控制精度上,單任務(wù)表現(xiàn)接近獨(dú)立專用網(wǎng)絡(luò)水平;大規(guī)模團(tuán)隊(duì)協(xié)作對(duì)抗中的協(xié)作效率顯著提升;訓(xùn)練效率上,多任務(wù)聯(lián)合訓(xùn)練收斂速度大幅加快。動(dòng)態(tài)融合權(quán)重技術(shù)(訓(xùn)練初期通用策略主導(dǎo)保穩(wěn)定,后期增強(qiáng)任務(wù)特異性實(shí)現(xiàn)精細(xì)化調(diào)整)有效平衡了探索與優(yōu)化過(guò)程。
41、資源效率優(yōu)化同樣突出。以典型多任務(wù)場(chǎng)景為例,傳統(tǒng)方案需為每個(gè)任務(wù)維護(hù)獨(dú)立參數(shù),而本發(fā)明僅需共享的通用參數(shù)與超網(wǎng)絡(luò)動(dòng)態(tài)參數(shù),總參數(shù)量遠(yuǎn)低于傳統(tǒng)方案。這種輕量化設(shè)計(jì)使系統(tǒng)可部署于計(jì)算資源受限的邊緣設(shè)備,如倉(cāng)儲(chǔ)移動(dòng)機(jī)器人、野外作業(yè)集群等,顯著拓展應(yīng)用場(chǎng)景邊界。同步實(shí)現(xiàn)的參數(shù)更新路徑獨(dú)立機(jī)制,避免多任務(wù)梯度干擾,進(jìn)一步保障了訓(xùn)練效率。
42、本發(fā)明的核心技術(shù)優(yōu)勢(shì)延伸至多樣化的架構(gòu)適配。級(jí)聯(lián)結(jié)構(gòu)通過(guò)通用網(wǎng)絡(luò)輸出特征表示驅(qū)動(dòng)任務(wù)專用決策,而簡(jiǎn)化版方案則直接以超網(wǎng)絡(luò)參數(shù)生成動(dòng)作,在資源敏感場(chǎng)景保持高效。這種靈活性使系統(tǒng)能根據(jù)任務(wù)耦合度與硬件條件選擇最優(yōu)架構(gòu),在機(jī)器人集群協(xié)作、工業(yè)自動(dòng)化及邊緣計(jì)算等領(lǐng)域?qū)崿F(xiàn)“基礎(chǔ)共享+特定任務(wù)微調(diào)”的輕量化多任務(wù)控制范式。
43、本發(fā)明實(shí)施例中的其他有益效果將在下文中進(jìn)一步述及。