畫
隨著越來越多的機(jī)器人進(jìn)入各種復(fù)雜的環(huán)境,研究人員正在努力使它們與人類的交互盡可能流暢自然。訓(xùn)練機(jī)器人對(duì)口頭指令立即做出反應(yīng),例如“拿起玻璃并向右移動(dòng)”,在許多情況下都是理想的,因?yàn)檫@最終會(huì)使人類和機(jī)器人之間的交互更加直接和直觀。然而,這并不總是容易的,因?yàn)樗枰獧C(jī)器人理解用戶的指令,還需要知道如何根據(jù)特定的空間關(guān)系移動(dòng)對(duì)象。
德國弗賴堡大學(xué)的研究人員最近設(shè)計(jì)了一種新方法,通過對(duì)“幻覺”場(chǎng)景的表征進(jìn)行分類,教會(huì)機(jī)器人根據(jù)人類用戶的指令移動(dòng)物體。他們預(yù)先發(fā)表的關(guān)于arXiv的論文將于今年6月在IEEE機(jī)器人和自動(dòng)化國際會(huì)議(ICRA)上發(fā)表。
“在我們的工作中,我們專注于相關(guān)對(duì)象的放置指令,如‘將杯子放在盒子的右側(cè)’或‘將黃色玩具放在盒子的頂部’。”參與這項(xiàng)研究的研究人員之一Oier Mees告訴TechXplore。“為了做到這一點(diǎn),機(jī)器人需要考慮將杯子相對(duì)于盒子或任何其他參考對(duì)象放在哪里,以再現(xiàn)用戶描述的空間關(guān)系。”
訓(xùn)練機(jī)器人理解空間關(guān)系并相應(yīng)地移動(dòng)物體是非常困難的,因?yàn)橛脩舻闹噶钔ǔ2粫?huì)在機(jī)器人觀察的更大場(chǎng)景中描繪特定位置。換句話說,如果一個(gè)人類用戶說“把杯子放在手表左側(cè)”,機(jī)器人應(yīng)該把杯子放在手表左側(cè)多遠(yuǎn),不同方向之間的確切界限在哪里(例如,右、左、前、后等。)?
“由于這種固有的模糊性,沒有可用于學(xué)習(xí)空間關(guān)系建模的基本事實(shí)或‘正確’數(shù)據(jù)。”Mees說,“我們從輔助學(xué)習(xí)的角度解決了空間關(guān)系的基于事實(shí)的像素標(biāo)注不可用的問題。”
Mees和他的同事設(shè)計(jì)的方法背后的主要思想是,更容易確定兩個(gè)物體和代表它們被發(fā)現(xiàn)的環(huán)境的圖像之間的空間關(guān)系。這使得機(jī)器人能夠檢測(cè)一個(gè)物體是否在另一個(gè)物體的左側(cè)、上方、前方等等。
雖然識(shí)別兩個(gè)對(duì)象之間的空間關(guān)系并不能指定這些對(duì)象應(yīng)該放在哪里來重現(xiàn)這種關(guān)系,但是在場(chǎng)景中插入其他對(duì)象可以讓機(jī)器人推斷出在多個(gè)空間關(guān)系中的分布。將這些不存在的(即虛幻的)物體添加到機(jī)器人所看到的東西中,將允許它在執(zhí)行給定動(dòng)作(即在桌面上的特定位置或其前方放置一個(gè)物體)時(shí)評(píng)估場(chǎng)景的外部環(huán)境。
“最常見的情況是,在圖像中實(shí)際‘粘貼’一個(gè)對(duì)象需要訪問3D模型和輪廓,或者仔細(xì)設(shè)計(jì)一個(gè)優(yōu)化過程來生成對(duì)策網(wǎng)絡(luò)(GANs)。”米斯說,“此外,簡單地‘粘貼’圖像中的對(duì)象會(huì)產(chǎn)生微妙的像素偽像,導(dǎo)致明顯不同的特征,并使訓(xùn)練錯(cuò)誤地專注于這些差異。我們使用一種不同的方法,將物體的高級(jí)特征植入卷積神經(jīng)網(wǎng)絡(luò)生成的場(chǎng)景特征圖中,從而對(duì)場(chǎng)景表征產(chǎn)生錯(cuò)覺,并將其歸類為輔助任務(wù),以獲得學(xué)習(xí)信號(hào)。”
在訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(CNN)學(xué)習(xí)基于錯(cuò)覺物體的空間關(guān)系之前,研究人員必須確保它能夠根據(jù)單個(gè)圖像對(duì)單個(gè)物體對(duì)之間的關(guān)系進(jìn)行分類。隨后,他們“欺騙”了這個(gè)名為RelNet的網(wǎng)絡(luò),通過在不同的空間位置植入高級(jí)別的物體特征,對(duì)“幻覺”場(chǎng)景進(jìn)行分類。
“我們的方法允許機(jī)器人在最少的數(shù)據(jù)收集或靈感的情況下,遵循人類用戶給出的自然語言放置指令。”米斯說,“每個(gè)人都希望家里有一個(gè)服務(wù)機(jī)器人,它可以通過理解自然語言指令來執(zhí)行任務(wù)。這是機(jī)器人更好地理解公共空間的意義的第一步。”
現(xiàn)有的訓(xùn)練機(jī)器人移動(dòng)物體的方法大多是利用與物體三維形狀相關(guān)的信息來模擬成對(duì)的空間關(guān)系。這些技術(shù)的一個(gè)關(guān)鍵限制是它們通常需要額外的技術(shù)組件,例如可以跟蹤不同物體運(yùn)動(dòng)的跟蹤系統(tǒng)。另一方面,Mees和他的同事提出的方法不需要任何額外的工具,因?yàn)樗皇腔?D視覺技術(shù)。
研究人員在一系列涉及真實(shí)用戶和機(jī)器人的實(shí)驗(yàn)中評(píng)估了他們的方法。這些測(cè)試的結(jié)果非常有希望,因?yàn)樗麄兊姆椒梢允箼C(jī)器人根據(jù)人類用戶語音指令描述的空間關(guān)系,有效地識(shí)別出在桌子上放置物體的最佳策略。
“幻覺場(chǎng)景代表我們的新穎方法也可以應(yīng)用于機(jī)器人和計(jì)算機(jī)視覺社區(qū),因?yàn)闄C(jī)器人通常需要能夠估計(jì)未來狀態(tài)的良好程度,以便推斷它們需要采取的行動(dòng)。”米斯說。“通過使用幻覺場(chǎng)景表示作為數(shù)據(jù)增強(qiáng)的一種形式,它還可以用于提高許多神經(jīng)網(wǎng)絡(luò)的性能,如對(duì)象檢測(cè)網(wǎng)絡(luò)。”
Mees和他的同事可以可靠地建立一組自然語言空間單詞的模型(如右、左、上等。)而不使用3D可視化工具。未來,他們研究中提出的方法可以用來提高現(xiàn)有機(jī)器人的能力,使它們能夠更有效地完成簡單的物體移動(dòng)任務(wù),并遵循人類用戶的語音指令。
同時(shí),他們的論文也可以為開發(fā)類似技術(shù)提供參考,以增強(qiáng)人類和機(jī)器人在其他物體操作任務(wù)中的交互。如果加入輔助學(xué)習(xí)方法,Mees和他的同事開發(fā)的方法也可以減少機(jī)器人研究數(shù)據(jù)集編譯相關(guān)的成本和工作,因?yàn)樗梢栽跊]有大型標(biāo)注數(shù)據(jù)集的情況下預(yù)測(cè)像素概率。
米斯總結(jié)道:“我們認(rèn)為這是人類和機(jī)器人達(dá)成共識(shí)的充滿希望的第一步。”“未來,我們希望將我們的方法擴(kuò)展到包括對(duì)參考表達(dá)式的理解,以便開發(fā)一個(gè)遵循自然語言指令的拾取和放置系統(tǒng)。”