當前位置:首頁 >  科技 >  IT業(yè)界 >  正文

經(jīng)緯創(chuàng)投:人形機器人的新起點

 2024-08-28 09:51  來源: 互聯(lián)網(wǎng)   我來投稿 撤稿糾錯

  域名預訂/競價,好“米”不錯過

8月21日,2024年世界機器人大會在北京正式開幕,與以往最大的不同在于,今年是人形機器人參展企業(yè)最多的一屆 ,共有27家人形機器人整機企業(yè)、30多家產(chǎn)業(yè)鏈上下游企業(yè)亮相。

隨著AI突飛猛進,具身智能成為了今年資本市場上最熱的領(lǐng)域之一,那些曾經(jīng)僅存在于科幻電影中的機器人,正離現(xiàn)實生活越來越近,變得“看得見、摸得著”。

在開幕前后,也有多家機器人公司發(fā)布了新產(chǎn)品,比如經(jīng)緯創(chuàng)投投資的宇樹科技發(fā)布了G1量產(chǎn)版本,起售價為9.9萬元,這款產(chǎn)品在世界機器人大會上首次展出,更強性能、終極外觀,最關(guān)鍵的是可以大批量生產(chǎn)了。

宇樹G1機器人身手敏捷,不僅可以空中劈腿,還可以自由地上下樓梯,輕巧敏捷

英偉達科學家Erwin Coumans迫不及待想搞一臺來做實驗

智元機器人則是一口氣發(fā)布了五款商用人形機器人產(chǎn)品,包括3款適用于不同場景的遠征系列(A2、A2-W、A2-Max),2款模塊化機器人系列產(chǎn)品(靈犀X1和X1-W,后者面向?qū)I(yè)數(shù)據(jù)采集)。

星塵智能則發(fā)布了新一代AI機器人助理Astribot S1,這款產(chǎn)品也在2024世界機器人大會上正式亮相。

星塵智能的機器人助理Astribot S1,正在烘烤華夫餅

今天隨著人形機器人越來越走進現(xiàn)實,也迎來了群雄逐鹿的時刻,但技術(shù)路線仍不確定、應用場景皆有可能。 經(jīng)緯創(chuàng)投在幾年前就系統(tǒng)性地關(guān)注通用智能機器人賽道,在機器人軟硬件一體化領(lǐng)域,投資了宇樹科技、智元機器人、銀河通用、星塵智能 ,它們都是優(yōu)秀的全技術(shù)棧型創(chuàng)業(yè)公司,但各自的技術(shù)切入方向并不相同,切入的應用場景也不盡相同,有工業(yè)、倉儲物流、零售、生物制藥等等場景。短期目標都是快速占領(lǐng)各自的應用場景,誰先把一個細分場景做好,積累出足夠多的數(shù)據(jù),就有可能繼續(xù)拓展新的延展領(lǐng)域,最終走向通用化。

除了機器人軟硬件一體化外,在產(chǎn)業(yè)鏈上游的兩個重要方向(數(shù)據(jù)、一體化關(guān)節(jié)) ,經(jīng)緯創(chuàng)投也投資了AI仿真數(shù)據(jù)領(lǐng)域的光輪智能 ,正在為行業(yè)提供海量的高真實性、高效用性的訓練數(shù)據(jù);而在一體化關(guān)節(jié)/執(zhí)行器領(lǐng)域,經(jīng)緯則投資了鈦虎機器人 ,鈦虎有非常高效和全面的產(chǎn)品系列,覆蓋了從靈巧手到全身上下的所有關(guān)節(jié)……

相比于AI大模型,人形機器人更需要工程層面的實踐與突破。 比如1990 年出生的王興興,并不是履歷亮眼的學霸型創(chuàng)業(yè)者,他是一個典型的理科偏才。“大家可能覺得很多頂尖院校的人很厲害,但實際上大家都是普通人,在機器人這個行業(yè)里,很多人只做軟件,完全沒碰過硬件,而硬件是實踐出來的,你知道就是知道,不知道就是不知道。” 宇樹科技創(chuàng)始人兼CEO王興興說,在大學時代他就發(fā)現(xiàn),只要集合最好的零部件,并且用上最先進的軟件,就可以做出一個更好產(chǎn)品,組合式創(chuàng)新。

與王興興有著類似的經(jīng)歷,鈦虎創(chuàng)始人易港是一位95后,早在大學宿舍就搞起了3D打印機和焊臺,大一就做出了假肢原型機,還在中美創(chuàng)客大賽中獲獎;大二又做出了一套主從式外骨骼,手部擁有17個自由度。他總結(jié)自己為什么能在大學時期的很多獎項中,打敗名校的參賽項目,最核心的就是自己的產(chǎn)品“看得到、摸得著、能體驗,對社會有直接價值,而不是漂亮的PPT。”

隨著AI大模型的突破,今天的人形機器人,正越來越逼近臨界點。 有越來越多之前不敢想的任務,如今都可以實現(xiàn)了。特別是隨著“世界模型”的提出,機器人的真機數(shù)據(jù)越來越具備實用價值。

“下一個十年,最值得做的就是人形機器人。” 星塵智能創(chuàng)始人來杰說,他曾是騰訊RoboticsX機器人實驗室的一號員工、百度“小度機器人”團隊負責人,在去年底離職創(chuàng)業(yè)。

“人工智能的黎明已經(jīng)迅速臨近,我預計在明年年底之前,全球至少會有一家公司能夠推出相對通用的機器人AI模型 ,發(fā)展速度之快令人矚目。” 王興興說,“我在年初提出了這一觀點,至今仍然堅信,明年年底實現(xiàn)這一目標是非常有可能的。”

一、“軟與硬”的結(jié)合

不同技術(shù)路線、不同應用場景,逐鹿方始

今天的機器人與以往最大的區(qū)別在于,隨著AI的爆發(fā),智能泛化能力大幅加強,這讓通用機器人成為可能。 傳統(tǒng)機器人并不需要對外界自主響應,所以這是一個自動化設備,不斷地重復之前預設的程序。而現(xiàn)在有了智能泛化能力的突破,甚至只需要語音控制,機器人就能實現(xiàn)新功能,這是從自動化到智能化的底層轉(zhuǎn)變。

而AI大模型的能力,不僅體現(xiàn)在規(guī)劃層面,也開始進入感知和控制環(huán)節(jié),機器人發(fā)展了50多年,第一次出現(xiàn)這樣由學習算法驅(qū)動、以及一個非常大的預訓練模型來推動控制環(huán)節(jié)的變化,這也是過去一年里,我們看到技術(shù)層面最大的突破。

“最終我們會有大腦大模型、小腦大模型,一起把本體串起來,構(gòu)成一個通用機器人系統(tǒng)。” 北大-銀河通用具身智能聯(lián)合實驗室主任王鶴說。他認為,通用機器人應該由基石層和能力層支撐,在基石層最關(guān)鍵的是去打造一個通用的本體,數(shù)據(jù)依賴于本體,本體也決定了它能產(chǎn)生什么樣的數(shù)據(jù),兩者相互綁定。基于本體和數(shù)據(jù),進而發(fā)展出機器人能力,主要是“大腦”和“小腦”,前者主要解決感知和決策問題,后者把大腦的感知和決策轉(zhuǎn)換成動作。

比如智元機器人也遵循了這樣的思考邏輯。“稚暉君”彭志輝從華為離職創(chuàng)業(yè)后,與上海交通大學博士生導師閆維新,組建了創(chuàng)始團隊,其中閆維新負責人形機器人的“身體”,彭志輝負責人形機器人的“大腦”。“過去,他們在工作中有一些交集,創(chuàng)始人(彭志輝)提出這個想法之后,大家一拍即合。”

遠征A1,是智元機器人的第一代產(chǎn)品,已于去年8月亮相。其步行速度為7公里/小時,依靠視覺傳感器和多線激光雷達可自主避障。它的靈巧手有5根手指,能像人類一樣抓取物品。應用場景專注于工廠、生物實驗室、家庭護理與陪伴等。

而一年之后,8月18日上午,智元機器人一口氣發(fā)布了“遠征”與“靈犀”兩大家族共計五款商用人形機器人新品:交互服務機器人遠征A2、柔性智造機器人遠征A2-W、重載特種機器人遠征A2-Max、智元X-Lab孵化的首個全棧開源機器人靈犀X1、專業(yè)數(shù)采機器人靈犀X1-W。

智元在發(fā)布會現(xiàn)場,搭建了一個攝影棚,機器人當場秀了一次在語音指令下,動手調(diào)飲料的操作

對于機器人這樣,離不開硬件做最終執(zhí)行的賽道,“軟硬一體”的能力尤其重要,像宇樹科技、智元、銀河通用、星塵等等公司都非常重視這一思路。 如果我們看電動車與自動駕駛行業(yè)的歷史,2015年第一批電動車創(chuàng)業(yè)公司創(chuàng)立至今,在這個過程中,自動駕駛創(chuàng)業(yè)公司的數(shù)量,并不少于電動車創(chuàng)業(yè)公司。但在今天,單純做自動駕駛的創(chuàng)業(yè)公司基本上都處于掙扎狀態(tài),鮮有獲得業(yè)務突破,哪怕曾經(jīng)獲得過巨額融資。

但從電動車企的角度,不僅“蔚小理”等一眾新興電動車企崛起,先有了“硬件”、產(chǎn)生數(shù)據(jù)閉環(huán),再切入自動駕駛,反而有很大的業(yè)務進展,各家的城市NOA越來越智能。如果一個行業(yè)離不開硬件支撐,并且這個硬件仍處于快速迭代期,單純做這行業(yè)的軟件是要冒極大風險的。

類似于新能源汽車核心的三電系統(tǒng),彭志輝將機器人的核心系統(tǒng)分為:動力域(電機關(guān)節(jié)、伺服控制、電源管理)、感知域(傳感器模塊、感知算法)、通信域(網(wǎng)絡接口、數(shù)據(jù)傳輸協(xié)議、中間件框架)、控制域(通用算力、AI算力單元、運控算法、具身算法)。

“整個機器人其實是一個軟硬件極其復雜的系統(tǒng),既涉及到內(nèi)部各個硬件模塊的協(xié)同和部署,同時也需要軟件跟算法高效配合。” 彭志輝說。

另一方面,雖然最終的目標是通用化,但在當下早期的發(fā)展階段,機器人的產(chǎn)品定義并不明確。 由于勞動力和任務需求是多元的,人形機器人公司短期內(nèi)也不會只有唯一的巨頭,將會有很多公司圍繞不同細分市場,走不同的技術(shù)方向,積累該場景下的數(shù)據(jù)護城河,這種“條條大路通羅馬”的局面會維持一段時間。

一些公司選擇把主要精力放在機器人的“上半身”。 比如銀河通用選擇的落地場景是無人值守藥店(特別是夜班),其首代產(chǎn)品蓋博特機器人,“下半身”就采取了輪式底盤+折疊本體的設計。之所以采取這樣的設計,首先因為輪式底盤在零售場景里,已經(jīng)完全可以覆蓋絕大部分應用。而折疊的設計,往上可以摸到2.4米,可以覆蓋最高的貨架,機器人可以拿到所有貨物。

往下也可以摸到地面,比如當有產(chǎn)品不小心掉到地面上時,機器人也可以自己撿起來。這些都是目前機器人的雙腿結(jié)構(gòu),比較難解決的問題,而在當下集中精力先研發(fā)“手”,可能能夠率先實現(xiàn)應用價值。

星塵智能創(chuàng)始人來杰則將自己的機器人產(chǎn)品定義為“助理” ,輔助人,而非替代人。首要的場景就是那些腦力勞動更多,但卻經(jīng)常陷入一些重復操作的事情上。最典型的例子就是生物醫(yī)療和化學實驗,這些都是需要高智力勞動,但卻繞不開重復操作的領(lǐng)域。此時一個合格的機器人助理,可以解放這些教授、博士們雙手,他們只需要設計實驗,而所有操作都可以讓機器人準確無誤、不分晝夜的去完成。如果給一位生物教授配10個機器人助理,他用于創(chuàng)造的時間甚至可以翻幾倍。

來杰也非常重視“軟硬一體”的能力。 得益于在騰訊RoboticsX機器人實驗室的經(jīng)歷,他非常重視架構(gòu),“我們與騰訊RoboticsX機器人實驗室的架構(gòu)就很相似,一半主攻機器人軟硬件一體化,另一半強調(diào)用AI算法去做感知和運動控制,以此來探索AI和機器人的強耦合。”

星塵融合了觸覺感知進行力控抓取,并結(jié)合規(guī)模化數(shù)據(jù)綜合訓練 ,包括人體動作視頻演示、動捕、遙操作采集等方案。來杰非常重視傳動結(jié)構(gòu)中的剛、柔結(jié)合 ,也裝入了一些傳感器以在傳動過程中,能一直監(jiān)測力的傳輸。比如機器人在削黃瓜時,星塵的機器人并不是去估算軌跡,而是與人類一樣,通過感知削皮刀在壓到黃瓜上時,力量的大小,來控制力量的輸出,這種特殊的傳動結(jié)構(gòu),能使精度更上一層樓。

“當下,離我們想要的具身智能之間,還有兩個重要的Gap(差距)沒有解決。”星塵智能創(chuàng)始人來杰說。

第一個Gap是AI大模型和機器人之間 ,有時候一些問題的產(chǎn)生,并不是單純靠擴大數(shù)據(jù)規(guī)模,或是算法就可以解決,而是需要在機器人層面去進行提升,這是硬件帶來的。

第二個Gap是在硬件本身的表達能力足夠的前提下,AI如何更好地結(jié)合硬件的能力。 比如說AI是否可能完全自主地進行學習和嘗試?假設有一個機器人在辦公環(huán)境下,它本來什么都不知道,只知道一些基礎動作,然后讓它自己去建語義地圖,自己去理解環(huán)境,自己去觀察其他人的操作,然后把所有動作學會,這就跟我們?nèi)祟惡芟?。當然,這也是Yann LeCun所提出的“世界模型”。

彭志輝在最近的發(fā)布會上,對整個具身技術(shù)成熟度等級,做了從G1-G5的劃分,這類似于自動駕駛的L1-L5:

“我們在過去一年里,同時在G2落地和G3預研兩個方向,都取得了一些階段性突破。在G2階段實現(xiàn)了一系列zero-shot和few-shot的一些通用原子能力,比如通用的位姿估計模型UniPose。目前也正在與多家制造業(yè)和服務業(yè)領(lǐng)軍企業(yè),進行聯(lián)合的場景POC,今年晚些時候有望全流程跑通,讓機器人能夠正式在客戶場景中部署干活。” 彭志輝說。

二、“大部分人對社會的成本結(jié)構(gòu)一無所知”

硬件與中國供應鏈

低成本是人形機器人大規(guī)模運用的前提。 今年5月,宇樹在發(fā)布G1人形機器人時,把最低售價打到了9.9萬元。但這款機器人的參數(shù)一個不差,身高約127厘米,體重約35公斤,具有超越常人的靈活性,小跑速度大于2m/s,擁有廣闊的關(guān)節(jié)運動空間,23至43個關(guān)節(jié),最大關(guān)節(jié)扭矩達到120N.m,可進行高難度的動態(tài)動作。比行業(yè)整體便宜80%的售價,再一次成為人形機器人領(lǐng)域的焦點。

“大部分人對社會的成本結(jié)構(gòu)一無所知。” 王興興說,“低成本的原因其實很簡單,以前很多學術(shù)或公司主要靠去買工業(yè)電機,但它們很大、很貴、很重,所以做出來的效果也不太好。但我后來發(fā)現(xiàn),其實可以對航模電機加以改造,所以后來的電機驅(qū)動器全是我自己做的,可以做到很小很便宜,再結(jié)合最新的運動控制技術(shù),就可以把整體性能做得非常好。其實整個社會大部分創(chuàng)新,是組合式創(chuàng)新,我們需要把各個行業(yè)的一些想法、技術(shù)組合做新的實踐,保證它是最前沿的,其實你就可以實現(xiàn)很多目標。”

G1采用3指力控靈巧手,通過力位混合控制,能模擬人手的各種精準操作

在2013年-2015年讀研究生期間,王興興沒什么資源和資金,卻做出了一款當時特別火爆的產(chǎn)品XDog,拿到上海機器人設計大賽二等獎,這幾乎是他一個人從頭設計硬件、控制算法,自制驅(qū)動電機做出來的。相比之下波士頓動力的四足機器人,還是純液壓方案,雖然性能不錯,但是很大、很貴、很重,那時候純電機驅(qū)動方案還是比較領(lǐng)先的。

“在制造成本方面,我甚至認為機器人其實與家里的電風扇本質(zhì)是一樣的,都可以通過各種方法將成本做到極致。”王興興說,他認為大部分產(chǎn)品都可以分為“材料成本+加工成本”,如果能優(yōu)化整個流程,找到合適的加工方法,其實可以省很多錢。

與王興興讀研期間做了XDog類似,鈦虎創(chuàng)始人易港也在大學時期,東拼西湊了4-5萬元,在大學宿舍里買了3D打印機和焊臺,自學3D建模和編程,模仿德國骨科隱形冠軍企業(yè)奧托博克的產(chǎn)品,制作出了一款假肢原型機,并在中美創(chuàng)客大賽中獲獎。

“做機器人,充滿了工程方面的問題,很多時候不是憑智商,而是看你對這個東西是不是真的感興趣,能不能去一點點鉆研,嘗試各種各樣的方法去解決技術(shù)難題,而且還要在一定的量產(chǎn)與成本可控的條件下。”易港說。如今,鈦虎主攻高性能一體化關(guān)節(jié)/執(zhí)行器,延展到輕量級協(xié)作機械臂、人形機器人/外骨骼、靈巧手等,其產(chǎn)品主打高扭矩密度、體積小、重量輕,具備無框電機、減速器、驅(qū)動器、編碼器自研設計能力,擁有機器人所需要的所有關(guān)節(jié),可以說是最為全面的產(chǎn)品線。

如果從更全局的角度來看,人形機器人最核心的是軟件+執(zhí)行器,軟件負責感知和決策,本質(zhì)上與自動駕駛類似,都需要先感知環(huán)境,然后做路徑規(guī)劃和決策。 而在硬件層面,也就是機械設計層面,最關(guān)鍵的就是執(zhí)行器,它相當于機器人的“關(guān)節(jié)和肌肉”,讓機器人可以做出各種動作,尤其是人形機器人,它的執(zhí)行器數(shù)量要遠遠高于傳統(tǒng)工業(yè)機器人,也是人形機器人的設計難點和重要成本項。

如果我們按功能拆解特斯拉Optimus Gen2的BoM成本,按Morgan Stanley的分析

“按分部”與“按功能”劃分BoM成本

如果只看機器人的硬件成本,其中占比最大的就是一體化關(guān)節(jié), 它集成了伺服電機、驅(qū)動器、減速器和一些控制模塊等。在傳統(tǒng)工業(yè)機器人中,這些伺服電機、驅(qū)動器、減速器等部件并不需要太集成,它們可以在空間上各自分立,通過各種線纜和連接件進行連接,體積重量大。但人形機器人不可能這么做,而一體化關(guān)節(jié)/執(zhí)行器的定位,就是在設計層面,將它們集成為一體化,實現(xiàn)更小體積、更輕重量、更強扭矩性能。

鈦虎的關(guān)節(jié)產(chǎn)品

人形機器人還有一個特殊的核心零部件——靈巧手。 它高度仿人手,是人形機器人執(zhí)行動作的最終零件,十分重要且復雜,面臨的最大難題是要在極小的空間內(nèi),驅(qū)動自由度極多、配備功率密度高、控制精度高的電機,對其性能要求極高。

比如特斯拉Optimus機器人,和人手一樣同樣使用5個手指,擁有11個自由度,拇指采用雙電機驅(qū)動彎曲和側(cè)擺,其它四指各用一個電機帶動。電機采用蝸桿傳動機構(gòu)的目的,與腿部直線伺服如出一轍,采用機構(gòu)自鎖降低能耗。為追求形態(tài)美觀及自適應性,手指采用拉線的傳動機構(gòu),擁有負重20磅(9KG),和自適應抓?。軌蜃ト〔煌螤睢⒊叽绲奈矬w)的能力,可完成搬運、澆花等動作。這基本上就復制了人類手掌的功能設計。

4年前,易港還自主研發(fā)了一款靈巧手,“我也沒想到這款產(chǎn)品在今天那么受歡迎,如今回頭看,其實這是現(xiàn)在三大主流結(jié)構(gòu)中的一個,我們當時為了做假肢,結(jié)果相當于開創(chuàng)了一個結(jié)構(gòu)派系。”

在靈巧手的傳動結(jié)構(gòu)中,有奧托博克式的直線推桿方案,這個方案在2008年就實現(xiàn)了量產(chǎn)。另一種主流結(jié)構(gòu)是拉繩式,類似于模仿人體的筋腱,拖一根繩子來傳動。還有一種鈦虎的專利,基于平行齒輪、錐齒,再加上三連桿的結(jié)構(gòu)。“如果從美觀度、抗沖擊性、裝配難易程度、成本等各個方面來看,第三種方案有其優(yōu)勢。”易港認為。

鈦虎的靈巧手產(chǎn)品

機器人上半身的發(fā)展,直接決定了它現(xiàn)在能做什么。 當然靈巧手的設計和應用并不容易,在這項技術(shù)成熟之前,采取夾爪(“兩爪”、“三爪”)的方案也未嘗不可,需要有選擇性。比如銀河通用在便利店場景的實際應用中,給機器人裝上了吸盤和夾爪兩種末端執(zhí)行器,機器人可以自主決策需要用哪個,例如在需要拿礦泉水瓶時,夾爪就可以完成任務,但在抓取零食時,吸盤會更合適。

同時,銀河通用還在針對靈巧手展開研究,因為面對過寬(夾爪的夾距有限)或光滑的物體,以及柔性物體(比如晾曬衣服,需要用衣架把衣服插起來)、復雜場景(擰瓶蓋)時,靈巧手或許才是終極解決方案。

相比于AI大模型,在人形機器人領(lǐng)域,硬件的快速迭代也有很重要的影響。 拿電動車產(chǎn)業(yè)舉例子,傳統(tǒng)燃油車至少需要三年時間的研發(fā)、七年時間的全球銷售,才能收回成本開始盈利。但現(xiàn)在中國的智能電動車企業(yè),已經(jīng)能做到兩年就迭代一個平臺,因為如果不能在兩年之內(nèi)迭代一個平臺的話,這個車型無論是在智能化方面,還是在續(xù)航里程方面就都跟不上。在光伏產(chǎn)業(yè)也類似,每隔幾年就會有一個重要的技術(shù)迭代。一個新產(chǎn)線如果不能在兩年之內(nèi)實現(xiàn)產(chǎn)能交付,基本上也會被淘汰。

而機器人硬件水平每迭代一次,很多核心性能都會躍升一個臺階,而這恰恰是中國供應鏈的優(yōu)勢。 比如減速器、電機的升級,對精度、力控都有決定性影響,這能極大升級機器人的可操作性。一旦研發(fā)成熟,到達制造環(huán)節(jié),根據(jù)大多數(shù)制造業(yè)的規(guī)律,每當產(chǎn)量翻倍,成本將會降低10-30%,這在光伏和鋰電池行業(yè)中,均有所體現(xiàn)。

“展望未來,整個機器人產(chǎn)業(yè)鏈,很可能比現(xiàn)在的汽車產(chǎn)業(yè)鏈更高一個量級。” 易港說。

三、“人形機器人比自動駕駛更缺數(shù)據(jù)”

真機數(shù)據(jù)、仿真數(shù)據(jù)與機器人的數(shù)據(jù)饑渴癥

“數(shù)據(jù)是AI下一個發(fā)展階段的最大助推力,但真實世界的數(shù)據(jù)是遠遠不夠的,這需要仿真數(shù)據(jù)來彌補。” 光輪智能聯(lián)合創(chuàng)始人兼COO楊海波說,“我們認為很快就能找到Scaling Law,那么機器人也將很快變成數(shù)據(jù)驅(qū)動,這也是我們做仿真合成數(shù)據(jù)的初衷。”

GPT-3.5之所以能產(chǎn)生劃時代的突破,核心在于Scaling law,而這離不開數(shù)以百億的訓練數(shù)據(jù)。訓練AI大模型的數(shù)據(jù)在互聯(lián)網(wǎng)上容易獲取,但對于機器人來說,直接可用的數(shù)據(jù)幾乎為零。

能否獲得高質(zhì)量且足夠便宜的數(shù)據(jù),是當下制約機器人發(fā)展的瓶頸,也是拉開公司之間競爭的重要手段。 前車之鑒是Everyday Robots,它曾是谷歌的明星獨立項目,但在今年2月被谷歌因成本控制而解散,并入谷歌其他部門。

造成Everyday Robots成本高昂的一個重要原因,就是數(shù)據(jù)采集成本過于昂貴。OpenAI曾經(jīng)也有一個機器人部門,但后來放棄了,問題也出在數(shù)據(jù)收集上。

為什么采集成本這么高?主要是因為Everyday Robots基于真實環(huán)境來收集數(shù)據(jù)。谷歌為了訓練PaLM-E,用了13臺機器人,收集了17個月,才拿到足夠的數(shù)據(jù)量,如果是在更復雜的工業(yè)場景,數(shù)據(jù)采集成本會更高。

機器人的遙操作

“目前對于人形機器人來說,主流的數(shù)據(jù)獲取手段分為兩種:一種是真實數(shù)據(jù),另一種是仿真數(shù)據(jù)。” 楊海波認為。

真實數(shù)據(jù)就是構(gòu)建一個采集數(shù)據(jù)的基地,在里邊搭建相關(guān)設備,比如遙操作、動作捕捉等等,比如家庭場景里的做飯,捕捉方方面面的動作數(shù)據(jù),然后再對合并數(shù)據(jù)進行一些泛化,以及清洗,最終給到模型。

仿真數(shù)據(jù)則是完全在模擬器中進行的。首先用虛擬建模的方式,把環(huán)境場景搭建起來,然后再把機器人虛擬化放進去,形成一個動態(tài)的場景。這里面的一切物體,建模都要盡量接近真實,比如需要做一個蘋果,那就要制作出大量不同的具體形態(tài),比如不同的光照條件、不同的位置條件、不同的摩擦力情況等等。

從這樣動態(tài)場景提取出來的數(shù)據(jù),其實是一張張類似于“圖片”的數(shù)據(jù)集,在這些“圖片”上也需要補充針對性的標注,再給到機器人公司做算法訓練。這個訓練過程,就有點像特斯拉在訓練FSD時,拿人類司機的真實駕駛視頻訓練。

仿真數(shù)據(jù)最核心的要求,就是盡可能的接近真實,真實度、泛化度都是重要指標。 如何符合物理規(guī)律,是目前的一個難點,比如一個物體是軟還是硬,這就需要更復雜的參數(shù)設計。

由于仿真數(shù)據(jù)多數(shù)是通過視覺,訓練過程往往是,首先需要判斷出來這個物體是什么材質(zhì),比如是個杯子,然后再去設計多大的力量,這個過程也可以加入大語言模型的能力。但這與在機器人的傳動結(jié)構(gòu)中,加一個力觸覺是不同的技術(shù)方向。

所以,仿真數(shù)據(jù)與遙操作各有優(yōu)劣 。遙操作的優(yōu)勢在于,在將采集到的數(shù)據(jù)用于訓練機器人后,這一項任務的成功率會很高。但劣勢也很明顯,機器人的能力缺乏泛化性。

比如在特斯拉訓練機器人分揀電池的例子中,就是通過人類帶著VR眼鏡,去遙控操作機器人采集而來的。通過這種方法訓練出來的機器人,幾乎只會重復遙操作時的動作,比如把一個電池放到三乘三的盒子里,但當你把電池換成礦泉水瓶,同時將盒子換成更大的四乘六時,機器人就不知道怎么辦了,這時候就又需要重新進行遙操作再去訓練。在沒有形成海量數(shù)據(jù)的時候,每做一個新動作都非常吃力,數(shù)據(jù)采集成本很高,并且難以在短時間獲取大量數(shù)據(jù)。

與遙操作對比,仿真數(shù)據(jù)的優(yōu)劣勢幾乎相反。 首先可以用低成本生產(chǎn)海量數(shù)據(jù),同時機器人在經(jīng)過訓練以后,能力是泛化的,因為可以仿真制造一系列所需要的場景和交互,以使機器人可以解決各種問題。

當然,仿真數(shù)據(jù)的劣勢也很明顯,問題主要出在仿真還不夠接近真實,當把通過仿真數(shù)據(jù)訓練的機器人用在真實場景中時,存在一定的失敗率,比如在抓取任務中,因為光照、環(huán)境等各種因素的改變,機器人可能以為抓到了,但其實沒抓到。

提高數(shù)據(jù)規(guī)模,嘗試將大模型訓練中的Scaling Law,應用在機器人仿真訓練數(shù)據(jù)中,可能是準確率不足的解決之道。

在王鶴看來,他在一開始嘗試用仿真數(shù)據(jù)時,也遭遇了準確率不足的問題。不過他很快意識到,當時只用了一個百萬級的數(shù)據(jù)集,如果把規(guī)模擴大會怎樣?

“我們自己的實驗發(fā)現(xiàn),比如在抓取這個任務上,在用靈巧手抓取沒有見過的、隨機亂放的物體時,在有十億次抓取數(shù)據(jù)的情況下,機器人的成功率能到 86%,如果數(shù)據(jù)量縮到萬分之一,也就是 10 萬次抓取時,成功率就只有 58%。這說明具身智能也有清晰的 scaling law,它對數(shù)據(jù)有更大渴求。”王鶴說。

“傳統(tǒng)的仿真是以測試為中心的,而為具身智能服務的仿真,則是需要以訓練為中心。”光輪智能CEO謝晨說,他認為好的仿真數(shù)據(jù)首先要有自我真實性、效用性評測能力,如果沒有這些,仿真數(shù)據(jù)也很難讓客戶的算法有所提升。謝晨曾在英偉達負責自動駕駛仿真,國際首創(chuàng)將生成式AI融入仿真,從0-1開發(fā)落地仿真數(shù)據(jù),后選擇回國創(chuàng)立光輪智能。

“仿真數(shù)據(jù)不會取代真實數(shù)據(jù),而是放大它。” 他認為終極的Data for AI,會是真實的人的示范數(shù)據(jù),與仿真數(shù)據(jù)能力的乘積。

==========================

過去10年,AI給太多行業(yè)帶來過希望和失望。而今天的人形機器人,正越來越逼近臨界點。 雖然機器人至今沒有清晰的產(chǎn)品形態(tài),但經(jīng)緯創(chuàng)投看到每一家機器人創(chuàng)業(yè)公司都在嘗試各自的應用場景,像已經(jīng)投資的四家機器人軟硬件一體化公司(宇樹科技、智元機器人、銀河通用、星塵智能),再配合著產(chǎn)業(yè)鏈上游的核心一體化關(guān)節(jié)(鈦虎機器人)、仿真數(shù)據(jù)(光輪智能),都在不同場景下有非常好的應用。

這一波人形機器人公司的短期目標,都是快速占領(lǐng)各自的應用場景,誰先把一個細分場景做好,積累出足夠多的數(shù)據(jù),就能建立護城河,再去拓展新領(lǐng)域,最終走向通用化。

而機器人的發(fā)展離不開硬件。與歐美市場對比,經(jīng)緯創(chuàng)投看到國內(nèi)很多初創(chuàng)公司的硬件迭代能力,比海外要快很多,成本控制能力更好,在某些硬件細節(jié)方面超越了海外同行。

全球化幾乎是中國通用機器人公司的必選戰(zhàn)略,且與電動車行業(yè)不同,其在全球化中遇到的障礙會更小。 其中一個原因是,幾乎沒有一個國家具備有規(guī)模的機器人產(chǎn)業(yè),此時出海不會沖擊當?shù)氐漠a(chǎn)業(yè)結(jié)構(gòu),只要產(chǎn)品質(zhì)量和應用體驗足夠好,出海溢價可能達到國內(nèi)的5倍以上,這將為中國通用機器人企業(yè)提供廣闊的國際市場。

人形機器人能發(fā)展到今天的位置,來之不易。“我記得在2016年的時候,那時我還在百度,有一次參加完一個NLP的會議,結(jié)束之后充滿了挫敗感,感覺好像這輩子都看不到真正的應用,你也不知道那時的投入到底是不是對的。”星塵創(chuàng)始人來杰回憶,“但我也經(jīng)常反思,從我過去十幾年對未來的預判里,我發(fā)現(xiàn)AI和機器人整體的發(fā)展速度,又是大大超出我的預期了。短期內(nèi)你永遠會看到很多困難,但這么多聰明的頭腦,其實在解決一個又一個問題,產(chǎn)生了一個又一個技術(shù)突破,就像有一只巨大的手在促使這個行業(yè)往上升,這給我?guī)砗艽蟮哪芰?,讓我一直堅守在這個行業(yè)里。”

“技術(shù)是一個日新月異的事兒,你無論是在做你的老本行,還是做一件新事,你都有可能明天就被更新的技術(shù)給‘卷’了,AI和機器人行業(yè)尤其如此。與其說按兵不動,還不如主動的去創(chuàng)造變化。” 光輪智能創(chuàng)始人兼CEO謝晨說,“所以在我看來,現(xiàn)在的創(chuàng)業(yè)成本其實比之前要低太多了,因為現(xiàn)在不變的成本太高了。

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關(guān)文章

熱門排行

信息推薦