谷歌最近發布了一個全新的移動3D識別方案Objectron,它可以在2D圖像中找到物體,并通過AI模型估計它們的位置、方向和大小。谷歌表示,Objectron對機器人技術、自動駕駛汽車、圖像檢索和ar技術有著深遠的影響。例如,它可以幫助工廠車間的機器人實時避開障礙物。
目前,跟蹤三維物體是一個棘手的問題,尤其是在處理有限的計算資源時。由于數據的缺乏以及物體外觀和形狀的多樣性,當唯一可用的圖像是2D時,情況會變得更糟。
為此,Objectron R&D團隊開發了一種圖片標記工具,可以從分屏視角顯示2D視頻幀,并支持記者以分屏視角顯示2D視頻幀,以標記對象的3D邊界框(即矩形邊框)。這些3D邊界框將疊加在點云數據、相機屏幕和識別的平面上。
在3D視圖中標記3D包圍盒后,記者可以在2D視頻幀中驗證,而對于靜態圖像,記者只需在單幀中標記目標對象。標記工具還使用AR會話數據中的實際攝像機信息來確定對象在所有幀中的位置。
為了補充現實世界中的數據,提高AI模型預測的準確性,谷歌R&D團隊開發了一個引擎,將虛擬物體放置在包含AR會話數據的場景中,這樣相機圖像檢測到的平面區域和預測的光線就可以用來生成與物理中的場景相匹配的光照位置,從而產生高質量的合成數據。在驗證測試中,綜合數據的準確率提高了10%左右。