2023年2月,南極熊獲悉,GPU制造商Nvidia宣布推出Magic3D,這是一種生成式AI技術(shù),可以根據(jù)文本提示生成3D模型。2022年11月,研究人員也基于此技術(shù),發(fā)表了一篇題為《Magic3D: High-Resolution Text-to-3D Content Creation》的論文,這并不是第一篇有關(guān)生成式AI技術(shù)應(yīng)用于3D打印的論文,2022年9月,來自谷歌的研究人員就以《DREAMFUSION: TEXT-TO-3D USING 2D DIFFUSION》為題發(fā)表了他們的研究內(nèi)容,那么生成式AI技術(shù)是什么?這兩個團隊所研究的內(nèi)容有何異同?3D打印生成式AI技術(shù)面臨著哪些問題呢?
Image-via-Nvidia..jpg (26.52 KB, 下載次數(shù): 44)
下載附件
2023-2-3 09:08 上傳
△Magic3D 渲染的箭毒蛙 3D 模型。
3D打印中的生成式AI技術(shù)
生成式AI(Generative AI 或 AIGC)是利用現(xiàn)有文本、音頻文件或圖像創(chuàng)建新內(nèi)容的技術(shù)。應(yīng)用場景涵蓋圖文創(chuàng)作、代碼生成、游戲、廣告、藝術(shù)平面設(shè)計等。未來,生成式AI將成為一項大眾化的基礎(chǔ)技術(shù),極大的提高數(shù)字化內(nèi)容的豐富度、創(chuàng)造性與生產(chǎn)效率,其應(yīng)用邊界也將隨著技術(shù)得進步與成本的降低擴展到更多領(lǐng)域。用于3D建模的生成式AI有助于將具有復(fù)雜有機形狀的組件概念化。3D打印能夠制造這些復(fù)雜形態(tài)的理想技術(shù),因為它具有生產(chǎn)復(fù)雜結(jié)構(gòu)的能力,同時還具有成本效益。 年度3D打印行業(yè)調(diào)查的結(jié)果表明,使用AI自動生成3D模型是一個熱門話題。
生成式AI在3D打印領(lǐng)域中的發(fā)展
微信圖片_20230203090508.jpg (35.7 KB, 下載次數(shù): 35)
下載附件
2023-2-3 09:07 上傳
△Magic3D相關(guān)論文
●Magic3D可以在40分鐘內(nèi)創(chuàng)建一個帶有彩色紋理的3D網(wǎng)格模型。這是輸入“一只坐在睡蓮上的藍色箭毒蛙”這樣的提示之后出現(xiàn)的。根據(jù)獲得的結(jié)果,經(jīng)過改進,可以用于各種藝術(shù)場景或視頻游戲。
微信圖片_20230203090505.jpg (30.77 KB, 下載次數(shù): 35)
下載附件
2023-2-3 09:07 上傳
△DreamFusion相關(guān)論文
●DreamFusion是谷歌研究人員于2022年9月發(fā)布的一篇關(guān)于“從文本到3D模型”的論文內(nèi)容。
●Physna在兩周內(nèi)使用 8,000 個模型為 3D 模型和場景創(chuàng)建了生成式 AI 原型
Magic3D VS DreamFusion
在Nvidia的論文中,研究人員詳細闡述了生成式AI技術(shù)如何讓無需特殊培訓(xùn)的人即刻創(chuàng)建3D模型。他們表示,這種技術(shù)一旦進一步完善,可以加速視頻游戲的開發(fā),應(yīng)用到電影和電視特效中。研究人員們希望借助Magic3D技術(shù),使3D合成大眾化,并在3D內(nèi)容創(chuàng)作中展示每個人的創(chuàng)造力。
Nvidia在推進生成式AI方面處于有利地位。該公司的GPU可以使用著色器創(chuàng)建逼真的圖形,著色器指示圖像中的每個像素如何在特定光線下顯示。著色器為每個像素計算,跨多個像素重復(fù)計算。與英特爾微處理器或通用CPU不同,Nvidia GPU 可以快速渲染圖像,同時進行多個簡單計算,例如著色像素。
●Magic3D 采用兩階段方法,采用低分辨率創(chuàng)建粗略模型,并將其優(yōu)化為更高分辨率,這類似于DreamFusion使用文本到生成2D圖像,然后優(yōu)化為體積 NeRF數(shù)據(jù)。
●Magic3D 可以根據(jù)給定主題實例的輸入圖像,使用DreamBooth 微調(diào)擴散模型,并使用給定的提示優(yōu)化 3D 模型。
微信圖片_20230203090521.jpg (45.13 KB, 下載次數(shù): 39)
下載附件
2023-2-3 09:07 上傳
△在給定主題下根據(jù)提示進行模型優(yōu)化
總結(jié)一下,Nvidia的原理是利用從粗到精的兩階段優(yōu)化框架來快速創(chuàng)建高質(zhì)量的文本到 3D 內(nèi)容。在第一階段,使用低分辨率擴散先驗獲得粗略模型,并使用哈希網(wǎng)格和稀疏加速結(jié)構(gòu)對其進行加速。在第二階段,使用從粗神經(jīng)表示初始化的紋理網(wǎng)格模型,允許使用與高分辨率潛在擴散模型交互的高效可微分渲染器進行優(yōu)化。
微信圖片_20230203090525.jpg (48.59 KB, 下載次數(shù): 41)
下載附件
2023-2-3 09:07 上傳
△Magic3D的兩階段優(yōu)化過程示意圖
再來看看DreamFusion團隊的技術(shù):先使用一個預(yù)訓(xùn)練2D擴散模型基于文本提示生成一張二維圖像,然后引入一個基于概率密度蒸餾的損失函數(shù),通過梯度下降法優(yōu)化一個隨機初始化的神經(jīng)輻射場NeRF模型。訓(xùn)練后的模型可以在任意角度、任意光照條件、任意三維環(huán)境中基于給定的文本提示生成模型,整個過程既不需要3D訓(xùn)練數(shù)據(jù),也無需修改圖像擴散模型,完全依賴預(yù)訓(xùn)練擴散模型作為先驗。
07a294662c5c6450f8db8c5bb79f635b.gif (638.5 KB, 下載次數(shù): 44)
下載附件
2023-2-3 09:07 上傳
相比較而言,Magic3D 可以根據(jù)輸入文本提示創(chuàng)建高質(zhì)量的 3D 紋理網(wǎng)格模型。它采用從粗到精的策略,利用低分辨率和高分辨率擴散先驗來學(xué)習(xí)目標(biāo)內(nèi)容的 3D 表示。Magic3D 以比DreamFusion高8倍的分辨率合成3D模型,同時速度也快2倍。
生成式AI和3D打。簼摿薮
Physna 的創(chuàng)始人兼首席執(zhí)行官 Paul Powers 分享了他對生成式AI的看法,他表示生成式AI在2022年十分火熱,因此該公司決定深入研究3D打印和生成式 AI 的結(jié)合。 雖然Physna是一家 3D 搜索和分析公司,專注于 AR/VR 和制造領(lǐng)域的工程和設(shè)計應(yīng)用,但他的3名工程師僅使用 8,000 個模型在 2 周內(nèi)就為 3D 模型和場景構(gòu)建了一個非;镜纳 AI 原型。
●Physna 的創(chuàng)始人兼首席執(zhí)行官 Paul Powers解釋了為什么要踏入生成式AI領(lǐng)域,他表示生成式AI已經(jīng)席卷了許多行業(yè),但在3D打印方面卻剛剛起步。主要原因是復(fù)雜的3D模型和缺乏標(biāo)記的3D 數(shù)據(jù)。3D模型通常很難創(chuàng)建,有多種不兼容的格式,并且與 2D 模型分析(文本、圖像、視頻等)相比很少受到關(guān)注。很少有企業(yè)適合專注于3D,它的研究難度很高。
●Google 的 DreamFusion 團隊在他們的文章中表示:與2D數(shù)據(jù)相比,3D數(shù)據(jù)較少。Google 的 DreamFusion 團隊使用 NeRF 的方式與 Nvidia 的 Magic3D 團隊使用的方式相同。用戶不僅掌握的對象信息更少,而且也很難對技術(shù)做出假設(shè)。雖然在 NeRFs 上訓(xùn)練可能比在 2D 模型上訓(xùn)練更有幫助,谷歌的 DreamFusion 團隊指出,NeRFs 不能很好地替代真實的、帶標(biāo)簽的 3D 模型。 也就是說,如果沒有解決方案,在不久的將來,生成式 AI 在 3D 領(lǐng)域的表現(xiàn)將不會像在其他領(lǐng)域那樣出色。 DreamFusion 團隊進一步進行了一些實驗,以校驗生成人工智能與 3D 打印的兼容性。
GPU計算如何改進3D打?
GPU計算需要使用 GPU(圖形處理單元)作為協(xié)處理器來加速CPU的科學(xué)計算。通過卸載一些耗時和計算密集型代碼,GPU 可以加速基于 CPU 的應(yīng)用程序。應(yīng)用程序的其余部分繼續(xù)在 CPU 上運行。從用戶的角度來看,應(yīng)用程序運行速度更快,因為它利用 GPU 的并行處理能力來提高性能。這種類型的計算被稱為“混合”或“異構(gòu)”計算。CPU 通常有四到八個 CPU 內(nèi)核,而 GPU 通常有數(shù)百個較小的內(nèi)核。GPU 的高計算性能得益于其龐大的并行結(jié)構(gòu)。
應(yīng)用程序開發(fā)人員可以通過采用 NVIDIA 的“CUDA”并行編程模型利用并行 GPU 架構(gòu)的性能。所有 NVIDIA GPU 都支持 NVIDIA CUDA 并行編程模型,包括GeForce、Quadro和Tesla。此前,Nvidia 推出了一種將2D 圖像轉(zhuǎn)換為 3D 模型的方法。該框架演示了如何以類似于肉眼工作方式的方式從單個圖像推斷形狀、紋理和光線。Nvidia 公關(guān)專家Lauren Finkle在公司博客上寫道:“看這個屏幕時請閉上左眼,F(xiàn)在閉上你的右眼并睜開你的左眼,你會發(fā)現(xiàn)你的視野會隨著你使用的是哪只眼睛而變化。那是因為當(dāng)我們看到二維空間時,視網(wǎng)膜捕捉到的圖像被組合起來提供深度并產(chǎn)生三維感!
NVIDIA 渲染框架,被稱為基于可微分插值的渲染器或 DIB-R,可以協(xié)助和加速3D設(shè)計和機器人的不同領(lǐng)域,在幾秒鐘內(nèi)渲染 3D 模型。根據(jù) Finkle 的說法,我們所處的 3D 世界實際上是通過 2D 組成的,這被稱為立體視覺。深度是通過合并通過每只眼睛看到的圖像在大腦中創(chuàng)建的,給人以三維圖像的印象。DIB-R 的工作原理與此類似,它可以通過將二維圖像的輸入轉(zhuǎn)換為地圖來預(yù)測圖像的形狀、顏色、紋理和光照。然后創(chuàng)建一個多邊形球體,從而生成一個代表原始 2D 圖像中組件的 3D 模型。
相關(guān)視頻:
相關(guān)連接:
NVIDIA Magic3D項目地址:https://research.nvidia.com/labs/dir/magic3d/
NVIDIA Magic3D論文地址:https://doi.org/10.48550/arXiv.2211.10440
DreamFusion項目地址:https://dreamfusion3d.github.io/
DreamFusion論文地址:https://doi.org/10.48550/arXiv.2209.14988
|