2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
在本周在預(yù)印服務(wù)器Arxiv.org上發(fā)表的一對論文中,谷歌和加州大學(xué)伯克利分校的研究人員描述了新的人工智能和機器學(xué)習(xí)技術(shù),使機器人能夠適應(yīng)從未見過的任務(wù),并掌握被遮擋的對象。 第一項研究詳細介紹了X-Ray,這是一種算法,當(dāng)部署在機器人上時,可以通過大量的對象搜索來抓取目標對象,而第二項研究則提出了一種策略適應(yīng)技術(shù),它“教授”機器人的技能,而不需要從抓取模型訓(xùn)練。
機器人抓取是一個令人驚訝的困難挑戰(zhàn)。 例如,機器人很難執(zhí)行所謂的“機械搜索”,即當(dāng)它們必須從一堆其他物體中識別和拾取一個物體時。 大多數(shù)機器人不是特別適應(yīng)能力強,而且缺乏足夠能力的人工智能模型來指導(dǎo)機器人在機械搜索中的手。
X-Ray和政策調(diào)整步驟可以構(gòu)成一個產(chǎn)品包裝系統(tǒng)的基礎(chǔ),該系統(tǒng)可以在沒有人的監(jiān)督下發(fā)現(xiàn)、拾取和丟棄一系列對象。
關(guān)于X-Ray的研究的合著者注意到,由于缺乏適當(dāng)?shù)哪P停瑱C械搜索-在一堆對象中尋找對象-仍然具有挑戰(zhàn)性。 X射線通過遮擋推理和假設(shè)預(yù)測相結(jié)合來解決這個問題,它用來估計包圍盒(物體周圍矩形邊框的坐標)與物體最相似的占用率分布,同時考慮各種平移和旋轉(zhuǎn)。
X-Ray假設(shè)堆中至少有一個目標對象被未知對象完全或部分遮擋,并且每個時間步長最多掌握一個對象。 以RGB圖像和目標對象為輸入,預(yù)測場景的占用率分布和分割掩碼,并計算幾個潛在的抓取動作,以最高的成功概率執(zhí)行。
為了訓(xùn)練和驗證X射線,研究人員制作了一個由10,000幅增強深度圖像組成的語料庫,其中標記了矩形框目標對象的對象占用分布。 從Thingiverse上的1296個三維CAD模型的開源數(shù)據(jù)集上采樣,他們選擇了10個不同尺寸的盒子目標,體積相等,厚度小,因此它們更有可能被遮擋。 這使他們共獲得10萬張圖像。
上圖:說明X射線技術(shù)的圖表。
這10000幅圖像中約有8000幅保留用于培訓(xùn),其余的留作測試。 還有一千幅包含模擬物體的圖像-蓋子、多米諾骨牌和長笛-被用來評估X射線對看不見的形狀、物體、縱橫比和尺度的泛化。
在涉及一個現(xiàn)實世界中的ABBYuMi機器人的物理實驗中,研究人員責(zé)成X-Ray將一個裝有物體的垃圾箱裝滿,然后將垃圾箱傾倒在目標物體的頂部。 在最初包含25個對象的堆中,系統(tǒng)以5個動作的中位數(shù)提取目標對象,超過20次試驗,成功率為100%。
合著者留給未來的工作,提高X-Ray的培訓(xùn)效率,并分析數(shù)據(jù)集大小的影響以及用于生成培訓(xùn)分布的翻譯和旋轉(zhuǎn)次數(shù)。 他們還計劃探索基于目標對象可見性獎勵的強化學(xué)習(xí)政策。
在最近的兩篇論文中,合著者試圖開發(fā)一個不斷適應(yīng)新的現(xiàn)實世界環(huán)境、對象和條件的系統(tǒng)。 這與大多數(shù)機器人形成了鮮明對比,它們只訓(xùn)練一次,部署時沒有太多的適應(yīng)能力。
研究人員預(yù)先訓(xùn)練了一個機器學(xué)習(xí)模型,在608,000次抓取嘗試的語料庫上抓取一系列物體,然后他們負責(zé)使用夾持器抓取物體,將其移動到起始位置的右側(cè)10厘米。 在系統(tǒng)練習(xí)了一段時間(在800次嘗試中),并將這些嘗試記錄到一個新的數(shù)據(jù)集-目標數(shù)據(jù)集-之后,新的嘗試在50%的時間內(nèi)與原始數(shù)據(jù)集混合,以微調(diào)模型。
上圖:模型適應(yīng)訓(xùn)練過程,以示意圖的形式。
這些步驟-預(yù)訓(xùn)練、嘗試新任務(wù)和微調(diào)-被重復(fù)了五種不同的場景。 在一種情況下,嚴酷的照明阻礙了機器人的相機;在另一種情況下,棋盤圖案的背景使模型難以識別物體。 最后,實驗者讓機器人抓住訓(xùn)練中沒有看到的透明瓶子(透明物體對機器人來說是出了名的難以抓住,因為它們有時會混淆深度傳感器),并撿起坐在高反射鈑金表面上的物體。
研究人員報告說,在實驗中,模型成功地抓住了物體63%的時間在苛刻的照明,74%的時間與透明的瓶子,86%的時間與棋盤支持,88%的時間與擴展夾持器,91%的時間與偏移夾持器。 此外,他們還說,機器人只需要1到4個小時的練習(xí)才能適應(yīng)新的情況(相比之下,大約有6,000個小時的學(xué)習(xí)如何掌握),而且性能并沒有降低模型適應(yīng)得越多。
在未來,團隊計劃調(diào)查該過程是否可以自動進行。
2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。