今日(2025年8月9日),宇樹科技創(chuàng)始人、CEO、CTO王興興在「2025世界機器人大會」的論壇上,發(fā)表了最新演講。以下是RoboX整理出的部分關(guān)鍵演講內(nèi)容:

王興興表示,今年上半年,整個機器人行業(yè)非常火爆,再加上政策的支持,相關(guān)整機廠商及零部件廠商,平均每家企業(yè)至少有將近50%-100%的增長,這意味著需求端拉動了整個行業(yè)的發(fā)展。
在海外,特斯拉今年大概他們會發(fā)布他們第三代的特斯拉的人體機器人,同時包括英偉達、蘋果, 等頭部企業(yè)都在持續(xù)推動機器人領(lǐng)域的發(fā)展。
在此背景下,王興興分享了幾個個人觀點:
1、關(guān)于本體的誤區(qū)
之所以機器人還沒有大規(guī)模應(yīng)用,并非因為硬件不夠好或者成本比較高。他認(rèn)為其實從技術(shù)層面或者AI角度來說,目前硬件是完全夠用的,這也包括人形機器人和靈巧手。
關(guān)鍵問題在于量產(chǎn),相關(guān)的工程問題非常多。
2、具身AI完全不夠用
與硬件相比,更大的挑戰(zhàn),還是具身智能的AI完全不夠用,這也是限制機器人尤其人形進行大規(guī)模應(yīng)用的最大問題。
王興興認(rèn)為,目前的智能體AI應(yīng)用,感覺類似于ChatGPT出來前的1-3年左右。目前業(yè)界已經(jīng)發(fā)現(xiàn)了類似的方向以及技術(shù)路線,但是還沒人把它做出來。
而機器人的臨界點應(yīng)當(dāng)達到什么程度?他表示,如果哪一天我們帶一個人形機器人來到完全陌生的會場,和它說,幫忙把這瓶水帶給某個觀眾,它可以流暢地完成;或者說「把這個房間整理一下」,它也能自己完成,那就差不多達到了臨界點。
“如果快的話,未來的1-3年內(nèi)還是很有可能實現(xiàn)的。最慢的話估計3-5年也可以實現(xiàn),但是現(xiàn)在確實還沒有達到這個效果。”
3、關(guān)鍵問題:數(shù)據(jù)還是模型?
之所以智能機器人還沒達到應(yīng)有水平,到底是模型的問題,還是數(shù)據(jù)的問題?王興興給出了獨特答案:
“目前全球范圍內(nèi),大家對于機器人數(shù)據(jù)問題的關(guān)注度,都有點太高了。現(xiàn)在最大的問題其實反而是模型。”
他認(rèn)為,目前具身智能和機器人的模型架構(gòu)不夠好,也不夠統(tǒng)一。
“在大語言模型領(lǐng)域,當(dāng)有了足夠多的好數(shù)據(jù)時,就能把模型訓(xùn)練得越來越好。但是在具身智能領(lǐng)域,會發(fā)現(xiàn)在很多情況下,數(shù)據(jù)采了卻用不起來。大家對模型的關(guān)注目前是相對有點少,反而對數(shù)據(jù)關(guān)注有點太高了。”
4、對VLA模型持懷疑態(tài)度
“VLA是一個相對傻瓜式的架構(gòu),我個人對它還是抱一個比較懷疑的態(tài)度。”
王興興表示,VLA模型對于真實世界的交互,數(shù)據(jù)質(zhì)量是不太夠用的。有個簡單的想法,是在VLA模型上加RL訓(xùn)練,但綜合宇樹長期的嘗試來看,VLA+RL還是不夠的,模型架構(gòu)還得再升級和優(yōu)化。
5、宇樹的做法
去年,OpenAI發(fā)布了視頻生成模型以后,行業(yè)內(nèi)產(chǎn)生了一個想法——如果生成一個「整理房間」的視頻,是不是能讓視頻生成模型直接去驅(qū)動一個機器人去執(zhí)行?
去年,宇樹就做了這個事情——利用預(yù)訓(xùn)練的機器人動作視頻,去控制機器人仿照執(zhí)行。他指出,目前谷歌的全新一代的視頻生成模型,也是一個視頻驅(qū)動的世界模型,同樣想實現(xiàn)這樣的效果。
“我覺得這個路線的方向,可能比VLA模型的收斂概率還大。但是我沒有驗證不敢打包票,目前該方法的問題就是,視頻生成模型太考驗視頻生成質(zhì)量了,導(dǎo)致對GPU的消耗有點大。但是對機器人來說,如果遇到并不需要很高精度的視頻生成質(zhì)量,還是可行的。”
6、機器人的Scaling law才剛開始
王興興指出,目前宇樹等品牌的機器人,在跳舞、格斗等動作上,實現(xiàn)的效果還不錯。但是要想進一步整體提升能力,還面臨著一個很大的問題。
“目前,機器人領(lǐng)域的Scaling law,大家做得非常不好。舉個最簡單例子,如果我有一個新的舞蹈要去訓(xùn)練,那么每次加入新的動作,都要重新訓(xùn)練,而是從頭開始訓(xùn)練,這是非常不好的。我們是希望我每做一個新訓(xùn)練的時候,是可以在之前的訓(xùn)練基礎(chǔ)上去做AI訓(xùn)練的。”
他認(rèn)為,做AI訓(xùn)練的時候,理論上應(yīng)該訓(xùn)練速度越來越快,學(xué)習(xí)新技能的效果越來越好。但是全行業(yè)內(nèi)目前還沒人能做出來,這是非常值得做的一個方向。
因為這在語言模型上已得到過充分驗證,但是在機器人的運動控制上面,大家才剛剛開始。
“在未來2-5年,最重要的還是端到端的具身智能AI模型,模型本身是非常最重要的。”
7、硬件工程優(yōu)化
更低成本、更高壽命的硬件,哪怕對于已經(jīng)發(fā)展100多年的汽車行業(yè)來說,如果要做一輛很好的汽車出來,工程量還是非常大的。
“對機器人行業(yè)來說,未來可能每年要生產(chǎn)幾百萬、幾千萬甚至幾億臺的人形機器人。如果要大批量生產(chǎn)制造出來,它的工程量的挑戰(zhàn)還是非常嚇人的一件事情。”
8、算力部署的局限性
目前,在人形機器人上,或者在移動機器人本體上,沒辦法直接部署很大規(guī)模的算力。這是因為它的尺寸和電池都有限,它部署的算力功耗也是有限制的。
王興興稱,在人形機上,最多只能部署峰值功耗約為100瓦的算力,且平時工作時算力只有幾個手機的水平。但是,未來的機器人對于大規(guī)模算力的需求肯定是毋庸置疑的,而且可能會是分布式的算力。
因為,大家都希望機器人工作的通信延遲比較低。此時如果數(shù)據(jù)中心或者算力中心在異地,延遲實在是太大了。所以他認(rèn)為,未來如果一座工廠里有100個機器人,也可以配備集群的分布式服務(wù)器,這樣其安全性和通訊延時是可以接受的。
再比如,如果一個小區(qū)中每家每戶都有機器人的時候,該小區(qū)也可以有分布式的集群。并且如果有一個新客戶想買一臺人形機器人的時候,他不需要給這部分算力的建設(shè)花錢,成本也會更低很多。
“我覺得分布式集群是未來在機器人領(lǐng)域非常重要的構(gòu)成。”王興興說道。
9、全球共創(chuàng)的重要性
他認(rèn)為,機器人領(lǐng)域是一個全球共創(chuàng)的過程,包括中國、美國的很多的大企業(yè),大家在過去的很多年和當(dāng)下,都做了很多貢獻,也希望共同推動行業(yè)進步。
“在AI領(lǐng)域,沒有一家大公司能保證只要有足夠的人、有足夠的資源,就能永遠(yuǎn)保持在AI領(lǐng)域領(lǐng)先。OpenAI和DeepSeek已經(jīng)證明了AI的創(chuàng)新,永遠(yuǎn)伴隨著一些隨機性。所以很多情況下,需要每家公司或者每家高校都做出很多貢獻,進行全球共創(chuàng)。”
“雙碳”戰(zhàn)略驅(qū)動各行業(yè)綠色低碳轉(zhuǎn)型,人造板... 【詳細(xì)】
第138屆中國進出口商品交易會(廣交會)第二期... 【詳細(xì)】
近期,年終重磅級大促雙11的號角已經(jīng)吹響,各... 【詳細(xì)】
十月,久盛一年一度的【愛木周】如約而至——... 【詳細(xì)】
10 月 18 日,生活家地板邀您開啟人字拼地... 【詳細(xì)】