得益于NVIDIAResearch新的AI模型,越來越多的公司而創(chuàng)作者創(chuàng)造的大規(guī)模虛擬世界,可以更輕松地填充一系列各種各樣的3D建筑、車輛、人物等內(nèi)容。
NVIDIAGET3D僅使用2D圖像進行訓(xùn)練,可以生成具有高保真紋理和復(fù)雜幾何細節(jié)的3D圖形。這些3D對象以與流行的圖形軟件應(yīng)用程序相同的格式創(chuàng)建,允許用戶立即將其形狀導(dǎo)入3D渲染器和游戲引擎進行后續(xù)編輯。
生成的對象可用于建筑物、戶外空間或整個城市的3D表示,并為游戲、機器人開發(fā)、建筑和社交媒體等行業(yè)量身定制。
GET3D可以根據(jù)訓(xùn)練中使用的數(shù)據(jù)生成幾乎無限的三維圖形。就像藝術(shù)家用一塊粘土制作精美的雕塑一樣,模型會將數(shù)字轉(zhuǎn)換成復(fù)雜的三維圖形。
例如,在2D汽車圖像的訓(xùn)練數(shù)據(jù)集的幫助下,它創(chuàng)建了汽車、卡車、賽車和貨車的系列集。當(dāng)在動物圖像上訓(xùn)練時,它會產(chǎn)生狐貍、犀牛、馬和熊等生物。如果輸入椅子,模型會生成各種旋轉(zhuǎn)椅、餐椅、舒適躺椅。
NVIDIA人工智能研究副總裁SanjaFidler負責(zé)領(lǐng)導(dǎo)創(chuàng)建這個工具的多倫多人工智能實驗室。她說,“GET3D讓我們離普及人工智能驅(qū)動的3D內(nèi)容創(chuàng)作更近了一步。它可以即時生成有紋理的三維圖形,這可能會給開發(fā)者帶來顛覆性的變化,幫助他們快速填充包含各種有趣物體的虛擬世界。”
11月26日至12月4日在新奧爾良(及線上)舉行的NeurIPSAI大會上,NVIDIA有超過20篇論文和研討會,其中GET3D是其中之一。
創(chuàng)建一個虛擬世界需要多種人工智能類型。
現(xiàn)實世界充滿了多樣性:街上的建筑各具特色,不同的車輛呼嘯而過,絡(luò)繹不絕的人流更是五彩繽紛。手動建模反映這一場景的3D虛擬世界非常耗時,因此很難填充詳細的數(shù)字環(huán)境。
以前的3D創(chuàng)成式人工智能模型雖然比手動方法更快,但在可以生成的細節(jié)層次上也是有限的。即使是最新的反向渲染方法也只能從多個角度拍攝的2D圖像中生成3D對象,這需要開發(fā)人員一次構(gòu)建一個3D圖形。
相反,當(dāng)推理在單個NVIDIAGPU上運行時,GET3D每秒可以生成大約20個物體,就像處理2D圖像的生成式對抗網(wǎng)絡(luò)一樣,但只生成3D物體。作為學(xué)習(xí)源,訓(xùn)練數(shù)據(jù)集更大更多樣,輸出也會更多樣更細致。
英偉達研究人員使用合成數(shù)據(jù)來訓(xùn)練GET3D,其中包含用不同相機角度拍攝的3D圖形的2D圖像。團隊只用了兩天時間,就用NVIDIAA100TensorCoreGPU訓(xùn)練了100萬張圖片的模型。
使創(chuàng)作者能夠修改形狀,紋理,材料。
GET3D因其能夠3D(generateexplicitextured 3D(generateexplicited 3D)網(wǎng)格而得名,這意味著它將以三角形網(wǎng)格的形式創(chuàng)建形狀,并用紋理材料覆蓋它們,就像papier-mché模型一樣。這使用戶能夠輕松地將對象導(dǎo)入游戲引擎、3D建模軟件和電影渲染器,并對其進行編輯。
創(chuàng)作者將GET3D生成的形狀導(dǎo)出到圖形應(yīng)用程序后,當(dāng)這些對象移動或旋轉(zhuǎn)時,可以使用逼真的燈光效果。通過集成NVIDIAResearch提供的另一個AI工具StyleGAN-NADA,開發(fā)人員可以使用文本提示為圖像添加特定的樣式,例如將渲染的汽車調(diào)整為燒毀的汽車或出租車,或?qū)⑵胀ǚ课菰O(shè)置為鬼屋。
研究人員指出,未來版本的GET3D可以使用相機姿態(tài)估計技術(shù),允許開發(fā)人員使用真實世界的數(shù)據(jù)(而不是合成數(shù)據(jù)集)來訓(xùn)練模型。它還可以改進為支持通用生成,這意味著開發(fā)人員可以一次性為各種3D圖形訓(xùn)練GET3D,而不是一次只針對一個對象類別進行訓(xùn)練。