這個時代,每個人都在說“機器人”是未來,是潛在機會市場。但實際上,機器人本身不是個新東西——比如它在工業(yè)自動化領域早就應用了。只不過傳統(tǒng)機器人開發(fā)范式,是從感知到驅(qū)動執(zhí)行,對每個問題建模并尋求合適的數(shù)學求解方法。
而這波“機器人”熱潮的關鍵是“具身智能”,或者說是由“Physical AI”所驅(qū)動。相較過去傳統(tǒng)機器人的主要差異,就在于AI:藉由LLM大語言模型、LVM視覺大模型,乃至VLAM視覺語言動作大模型,來解決問題。
在我們看來,除了智能程度更高,具身智能更多著眼于對機器人能力的泛化及普適。為什么人形機器人現(xiàn)在那么火?并不在于人們希望機器人長得和人類相似,而在于從商業(yè)邏輯角度來看,人形機器人是為數(shù)不多能夠以一種形態(tài),覆蓋海量的、多樣化場景的機器人類型。
今年Computex主題演講中,黃仁勛(NVIDIA CEO)說過這樣一段話:“人形機器人令人驚嘆之處,并不僅在于它能做什么,而更在于它相當通用(versatile)。”“技術(shù)需要規(guī)?;╯cale)。絕大部分已有的機器人系統(tǒng),到目前為止,量都還太少。量少的系統(tǒng)很難做到技術(shù)的規(guī)?;?,并最終走得夠遠、夠快?!彼浴叭诵螜C器人,很可能會成為下一代萬億美金規(guī)模的行業(yè)”。
實際上,我們認為并不單純是人形機器人,現(xiàn)在常談論的“具身智能”都著眼于讓機器人具備規(guī)模化效應,以期讓機器人在高速發(fā)展的基礎上,同時實現(xiàn)成本的降低,適配到更多行業(yè)和市場。不過即便是有AI助力,具身智能要達到這種程度的發(fā)展也并不是那么簡單——比如過去一年,我們在諸多行業(yè)會議、廠商采訪中聽到最多的:機器人訓練模型“缺數(shù)據(jù)”...
這也成為具身智能機器人市場化程度較低的原因之一?;蛟S在機器人、具身智能的發(fā)展之路上,還需要一些別的東西。
3臺計算機中的第二臺,究竟是做什么用的?
對NVIDIA打造機器人生態(tài)熟悉的讀者,過去1-2年應該能在各種場合聽到NVIDIA有關“3臺計算機”的闡釋。電子工程專輯在過去1年多的文章里也已經(jīng)有過反復提及。
簡單來說,一臺計算機用于AI學習——尤其包括前不久我們針對Computex報道中提到的“老黃的AI電腦帝國”;一臺計算機則作為模擬引擎存在——AI能夠在虛擬環(huán)境中學習,如何成為合格的機器人;還有一臺就是機器人本體了,或者相關于已有模型的部署。
在NVIDIA的定義中,physical AI的構(gòu)建就需要這樣3臺計算機:當然physical AI不僅是機器人,汽車、醫(yī)療設備等也都可以是基于physical AI技術(shù)的。如果具體到NVIDIA的產(chǎn)品,那么第一臺計算機顯然以DGX為代表,用于AI模型的預訓練或后訓練;
第二臺計算機則負責去跑Omniverse + Cosmos,用于對physical AI模型做訓練、測試、驗證的模擬仿真;第三臺計算機,可以是Jetson——比如前不久我們才剛剛試用過作為機器人大腦的Jetson Orin Nano,這一步是將蒸餾之后的模型部署到現(xiàn)實世界的機器人體內(nèi)。
這是個聽起來還挺符合直覺的解決方案,不過這里有個問題:為什么我們需要第二臺計算機,而不是像常見的數(shù)字AI那樣,就是AI模型的開發(fā)與訓練+部署與推理。去年的ROSCon上,我們和NVIDIA的工程師簡單對談,對方告訴我們第二臺計算機能有效降低開發(fā)成本,且強調(diào)這是“3臺計算機”的一大價值。
我們過去對于這一問題的解釋是:對于機器人這種高成本,操作失誤甚至可能具備危險性的設備而言,如果是在現(xiàn)實中直接訓練、試錯,則成本會變得不可控;所以轉(zhuǎn)而借助Omniverse這樣的虛擬世界去做訓練,顯得更加實際和有效。不過這番解釋可能還是低估了第二臺計算機的價值的。
今年GTC期間的預溝通會上,NVIDIA Omniverse與模擬技術(shù)副總裁Rev Lebaredian說了這樣一番話,讓我們加深了對于NVIDIA提出3臺計算機解決方案的理解:
他特別提到,現(xiàn)在很多我們在短視頻里頭看到的機器人那么厲害,實際當應用于生產(chǎn)時,真正的問題往往在于能力的“泛化(或通用化,generalizing)”,即從原本機器人只能以某種設定做某個特定的工作,走向它也能夠在不同環(huán)境下、做其他相似的工作負載。
“但因為(傳統(tǒng))機器人智能是有限的,它們通?;趥鹘y(tǒng)規(guī)則技術(shù)做編程,并非魯棒的系統(tǒng)?!薄八源碎g缺失的一塊拼圖,就是能夠給予它們通用智能的技術(shù)。它們因此能夠在不同的情況下實現(xiàn)通用化。這原本就是Transformer、LLM(大語言模型)所能達成的?!?/p>
在Rev看來,生成式AI是實現(xiàn)機器人智能泛化、通用智能的基礎技術(shù),“現(xiàn)在最大的挑戰(zhàn)也就變成了,這樣的技術(shù)需要海量的數(shù)據(jù)示例”——機器人大腦的訓練需要喂進大量的數(shù)據(jù)。那么“為此,我們認為唯一的解決方案就是模擬出足夠準確的現(xiàn)實世界,我們也就有了無窮的數(shù)據(jù)源,用以構(gòu)建這樣的機器人大腦”。
所以當代構(gòu)建機器人的最大挑戰(zhàn),逐漸轉(zhuǎn)向了“模擬仿真”技術(shù),也就是3臺計算機中第二臺計算機在嘗試解決的問題。
Omniverse與Cosmos的互補
這是個相當符合現(xiàn)代敘事的邏輯解釋:就像航天領域,為什么人們常說SpaceX星艦相較同類航天產(chǎn)品,在技術(shù)上的絕對領先,就在于其打破了火箭研發(fā)傳統(tǒng)流程,據(jù)說在10年前就已經(jīng)開始把主要注意力放在仿真技術(shù)上,實現(xiàn)了火箭迭代速度的大幅加速,同時還降低了火箭研發(fā)的成本。
這也更像是曾經(jīng)的熱門詞匯“元宇宙”雖然媒體熱度已大不如前,但它似乎正以另外一種更為腳踏實地、服務于行業(yè)市場的方式大步向前。所以ROSCon上,NVIDIA的工程師才說,“藉由仿真技術(shù),只需要一臺工作站,用我們的GPU和軟件,很快就有相應的數(shù)據(jù),能夠快速驗證算法。這就是NVIDIA AI + Omniverse解決問題的價值了?!?/p>
Omniverse前兩年還被我們描述為英偉達的元宇宙。現(xiàn)在雖然在市場宣傳上不大提“元宇宙”了,但它依然是那個構(gòu)建現(xiàn)實世界數(shù)字孿生(digital twin)的虛擬實現(xiàn)——且在諸多尚存的元宇宙里,是對現(xiàn)實世界模擬仿真做得最好的那波。除了已知在協(xié)同設計、工業(yè)數(shù)字孿生等領域發(fā)光發(fā)熱,它的下個殺手級應用顯然是機器人。
不過在Omniverse之外,從去年下半年到今年上半年,NVIDIA在主推的是一個叫Cosmos的東西。今年GTC的主題演講中,黃仁勛說Omniverse是physical AI的操作系統(tǒng),而Cosmos則是理解物理世界的生成式AI模型?!坝肙mniverse來訓練(condition)Cosmos,用Cosmos生成不計其數(shù)的(虛擬)環(huán)境,構(gòu)建的數(shù)據(jù)是基于現(xiàn)實、受控的(grounded)?!?/p>
簡單來說,Omniverse是物理級精準的虛擬環(huán)境,而Cosmos是基于此的模型。NVIDIA宣傳說這是全球首個“世界基礎模型(world foundation model)”,或者世界基礎模型開發(fā)平臺。今年CES的報道中,我們已經(jīng)詳細介紹過Cosmos。GTC上又發(fā)布了幾個新的Cosmos模型,分別是Cosmos Predict、Cosmos Transfer、Cosmos Reason。
Cosmos Predict模型能夠基于多模態(tài)輸入來“生成未來”:比如說給它起始幀和結(jié)束幀,Cosmos Predict就能生成此間視頻序列的所有幀——這就是個填補Physical AI所需數(shù)據(jù)空缺的典型示例。而Cosmos Reason“深度理解物理交互”,開發(fā)者可以將這些模型用于數(shù)據(jù)標注和創(chuàng)建,或者可以對Cosmos Reason模型做后訓練,將其蒸餾為VLAM模型或規(guī)劃模型(Planner model)。
還有個Cosmos Transfer更具代表性,它能夠基于視頻輸入來進行“世界轉(zhuǎn)換”——Rev解釋說,Omniverse作為基礎,基于經(jīng)典模擬仿真算法為Cosmos Transfer提供生成真實環(huán)境的支持;通?!白詈笠还锏哪M仿真(last mile of simulation)”成本高昂、難度巨大,而Cosmos Transfer能夠以低成本做到這一點,基于用戶輸入來生成多樣化的合成數(shù)據(jù)。
這里我們嘗試對Omniverse與Cosmos的關系,以及Cosmos究竟是什么的問題再做個注解。Rev在媒體問答環(huán)節(jié)給出的解釋更加全面:傳統(tǒng)的模擬仿真算法,基于人類對物理定律的理解,將其做成算法?!斑^去這些年,我們開始用AI來做模擬仿真。我們基于現(xiàn)實世界發(fā)生的事、觀察到的例子來訓練AI,讓AI基于這些觀察來抽象出物理定律?!薄癈osmos則是做成這件事的一大步?!?/p>
“(AI技術(shù))發(fā)展到一定階段,我們就會得到對應的世界基礎模型——可從不同角度,去完整地理解物理定律,包括牛頓力學、流體力學、電磁學等等各種模態(tài),最終合為一個大模型?!盧ev表示,“只不過我們還沒發(fā)展到那個程度,還沒有一個模型能理解這一切的?!薄拔覀儽旧硪呀?jīng)知道了不少物理學的相關等式,但做計算相當難;在某些場景下可能更難——創(chuàng)建這樣的世界,初始條件就去做這樣的模擬,將輸入喂給模擬器,得到真實的(realistic)輸出?!?/p>
所以“我們將Omniverse和Cosmos做了結(jié)合,利用Cosmos的能力,借助世界基礎模型,把它疊加在Omniverse已有的傳統(tǒng)模擬仿真技術(shù)之上(layering it on top of the classical simulation techniques that we already have available in Omniverse),或者說將其與Omniverse框架內(nèi)的其他模擬器做結(jié)合?!?/p>
“Omniverse里面已經(jīng)做了不少基礎級別的模擬,比如在城市環(huán)境里模擬汽車行駛。我們從中能獲得不少信息,有關于模擬當下的世界狀態(tài)。將其輸入到Cosmos里面,做最后一公里的模擬工作(last mile of simulation),令其做到photoreal,看起來更加的物理級精準?!?/p>
“因為如果要完全在傳統(tǒng)模擬環(huán)境下做成這件事,需要海量的投入——可能構(gòu)建物理環(huán)境、感覺就5%-10%的東西,卻要人類投入100倍的工作。所以,我們選擇用Cosmos接過基礎級別的模擬。而且還能通過快速更改一些提示詞,將一種模擬轉(zhuǎn)為不同的變體(variation),轉(zhuǎn)為上萬、百萬量級的數(shù)據(jù)?!?/p>
“可變的包括材料、光照、時間、天氣等等,只需要改一改提示詞就行,而不需要在傳統(tǒng)模擬器里頭做大量工作?!?/p>
圍繞3臺計算機生態(tài)的添磚加瓦
我們常規(guī)認知中,現(xiàn)在的機器人開發(fā)很流行運動模仿學習,也就是通過遙操作——比如VR眼鏡、手柄等,由人去做動作,讓機器人去模仿學習。這的確是具身智能開發(fā)的重要構(gòu)成環(huán)節(jié)。但它仍然很難解決“缺數(shù)據(jù)”的問題。
黃仁勛在Computex主題演講中的解釋相當明了:“人類的演示很難做到規(guī)?;╯calable),提供的數(shù)據(jù)有限。開發(fā)者可以用Cosmos世界基礎模型來放大(amplify)數(shù)據(jù)?!薄胺糯髷?shù)據(jù)”在我們看來就是在缺數(shù)據(jù)時代,第二臺計算機嘗試針對最大痛點之一的解決方案。
這里藉由Computex上發(fā)布的Isaac GR00T-Dreams再強化一下,流程中模擬仿真技術(shù)的重要性。關注NVIDIA機器人生態(tài)的讀者應該知道,Isaac GR00T是NVIDIA的人形機器人開發(fā)平臺;今年GTC上,NVIDIA還發(fā)布了開源的Isaac GR00T N1,這是個通用基礎模型,就是基于合成數(shù)據(jù),來生成、學習與模擬仿真。
后續(xù)更新的Isaac GR00T N1.5據(jù)說在6月份Computex期間就已經(jīng)達到了6000次的下載量——具體的模型也可以認為是NVIDIA對于上述流程的身體力行了。
而Computex上發(fā)布的Isaac GR00T-Dreams是個Blueprint(Blueprint在NVIDIA的定義中是參考工作流,即開發(fā)者可參考的定制化參考應用,用于加速生成式AI應用開發(fā))。GR00T-Dreams是建基于Cosmos的一個Blueprint,用于大規(guī)模合成軌跡數(shù)據(jù)生成。
其大致流程是這樣的:首先有了遙操作記錄人的演示,開發(fā)者基于此做Cosmos模型的fine-tune。開發(fā)者給模型輸入圖像或者新的指令,來生成未來世界狀態(tài)的所謂Dreams(夢境)——此過程不再需要通過遙操作抓取新的數(shù)據(jù)。在生成大量Dreams之后,Cosmos對每個Dream做質(zhì)量的推理(reason)和評估,選擇其中最好的用于訓練。
不過由于Dreams本質(zhì)上還只是2D像素,而機器人學習的應該是動作。所以GR00T-Dreams Blueprint會把2D的Dream視頻,生成為3D動作軌跡,也就能用來訓練機器人模型了。
只需要最少的手動遙操作捕捉,就能讓機器人去學習不同的新動作。換句話說Cosmos和對應的Blueprint旨在借助模擬仿真和AI技術(shù),來解決機器人開發(fā)“缺數(shù)據(jù)”的挑戰(zhàn)。如此,我們對Cosmos、NVIDIA為什么要做Cosmos,以及Omniverse和第二臺計算機在這其中扮演何種角色,也有了更為具象的理解。
當然依托“缺數(shù)據(jù)”來理解第二臺計算機,也只是一個角度。在NVIDIA機器人開發(fā)、相關第二臺計算機的生態(tài),除了模擬仿真框架、AI模型、Blueprint還有其他不少關鍵組成部分和持續(xù)不斷的技術(shù)迭代。
比如說數(shù)據(jù):GTC上NVIDIA發(fā)布了開源的Physical AI數(shù)據(jù)集,其中包括有300小時的室內(nèi)多攝像頭追蹤數(shù)據(jù)、2000小時的自動駕駛數(shù)據(jù)、1250份OpenUSD資產(chǎn),以及320K的人形機器人與機械臂動作軌跡數(shù)據(jù)——這些數(shù)據(jù)也相繼發(fā)布在了Hugging Face平臺上,據(jù)說NVIDIA后續(xù)還準備為該生態(tài)提供更多的數(shù)據(jù)。
NVIDIA本身就在用Isaac GR00T用于合成動作生成的Blueprint生成數(shù)據(jù),Rev說GR00T N1研究團隊用該Bluerpint,150張L40 GPU,11個小時,就生成了780k合成軌跡數(shù)據(jù)...相當于人類遙操作演示6500個小時的數(shù)據(jù),即100個人每天操作12小時持續(xù)一周——這對“缺數(shù)據(jù)”痛點的解決還是相當具象化的吧。
另外近期,生態(tài)內(nèi)還有個熱點開源技術(shù)值得一提:Newton——也是NVIDIA在GTC上發(fā)布的開源物理引擎,由NVIDIA Warp加速。Computex上的演示視頻,是個小機器人走在沙地里,機器人的每走一步都帶動了地面上大量沙粒的自然運動。黃仁勛說,Newton未來會成為機器人學習的關鍵。
因為機器人學習所在的虛擬世界本身需要遵守物理定律,“大部分物理引擎并不具備以高準確度,處理剛體和柔體的能力?!彼訬VIDIA在7月份開源了Newton。Newton是由Disney Research、NVIDIA和谷歌DeepMind合作打造的。Rev說,DeepMind將Newton融入到下一個版本的MuJoCo中,性能提升了70倍;而Disney Research則是該項目的首個采用者和貢獻者。
走向生產(chǎn)的擴展與未來
最后再談個和機器人相關的Blueprint發(fā)布,也能體現(xiàn)NVIDIA在機器人領域的布局還是更前瞻的。GTC期間NVIDIA宣布了針對工業(yè)機器人集群模擬的Mega Omniverse Blueprint。Mega是以工業(yè)數(shù)字孿生的方式測試機器人集群的Blueprint,目前已經(jīng)進入到早期預覽階段。
面向機器人應用時,Mega主要相關于機器人集群大規(guī)模模擬。Rev舉例說“我們期望確保工廠或倉庫中的機器人在OTA升級的時候,不會停止工作,或者做出什么不正確的行為”,“唯一避免停機風險的合理測試方案,就是做模擬?!?/p>
所以很顯然Mega也是基于Omniverse的,“可以模擬每個單獨的機器人,或者機器人之間的交互、所有機器人的感知等,是大規(guī)模模擬,規(guī)模化協(xié)作;是機器人在這個世界里,大腦感知、控制與制動的緊密閉環(huán)(tight loop)?!?/p>
前期已經(jīng)開始采用該方案的企業(yè)諸如KION集團的Dematic,用于其倉庫管理;Accenture、梅賽德斯奔馳、Schaeffler、Agility Robotics、現(xiàn)代汽車(Hyundai Motor Group)等也都開始用Mega做機器人部署的準備工作。
過去一年當NVIDIA更頻繁地宣稱AI是未來基礎設施——地位等同第二次科技革命的電和第三次科技革命的互聯(lián)網(wǎng)與信息,而NVIDIA自己則是提供AI基礎設施的工廠之時,當老黃說NVIDIA不僅是一家科技企業(yè),還是一家關鍵基礎設施企業(yè)之時,大部分人對這話的理解應該還是在于AI服務器或數(shù)據(jù)中心,作為token生成的基礎設施;
顯然NVIDIA于AI基礎設施的布局是包含了機器人的,畢竟AI的發(fā)展路徑正從Generative AI/Agentic AI走向Physical AI?!拔覀儤?gòu)建起了三大類AI基礎設施?!秉S仁勛在主題演講總結(jié)中說,“針對云的AI基礎設施、針對企業(yè)的AI基礎設施,和針對機器人的AI基礎設施。”
NVIDIA不想錯過任何一個AI技術(shù)突破或階段。就像黃仁勛在財報中說的,機器人即將迎來下一個ChatGPT時刻。而在該時刻到來之前,NVIDIA已經(jīng)做好了大量準備工作,而且仍然是以構(gòu)建完整閉環(huán)生態(tài)的方式。