分享到微信打開微信,點擊底部的“發(fā)現(xiàn)”, |
第一財經(jīng) 2025-02-19 11:49:41 聽新聞
作者:喬心怡 責編:劉佳
當馬斯克正在擔憂AI訓(xùn)練數(shù)據(jù)已經(jīng)耗盡的時候,具身智能企業(yè)正在面臨殘酷的數(shù)據(jù)生死局:訓(xùn)練一個倒水動作需要一臺超算運算千萬億次、第三方的數(shù)據(jù)“有毒”隨時會讓模型崩潰,仿真數(shù)據(jù)成本也正在攀升……
在這場決定未來機器人進化速度和方向的隱形數(shù)據(jù)大戰(zhàn)中,有具身智能企業(yè)正通過“反直覺”的訓(xùn)練方法撕開突破口,讓機器人在不相關(guān)的雜亂任務(wù)中領(lǐng)悟物理法則,試圖建立數(shù)據(jù)護城河。
當AI向物理空間延伸,數(shù)據(jù)極有可能成為重塑技術(shù)權(quán)力的關(guān)鍵。不過,機器人想要跨越臨界值,迎來具身大模型的GPT時刻,還需要解決數(shù)據(jù)質(zhì)量、算法、算力等多方面的問題。畢竟,具身智能的終局不會是單點技術(shù)的勝利,而是軟件、硬件與商業(yè)模式的系統(tǒng)戰(zhàn)爭。
克服“數(shù)據(jù)饑渴”
想要訓(xùn)練一個機器人的大模型,究竟需要多少數(shù)據(jù)?
“通常來講,一臺超級計算機,每秒鐘可以進行千萬億次到數(shù)百億億次浮點運算,而光是想要模擬人晃動杯中的水這一個動作,所涉及的計算量可能就需要一臺超級計算機算十分鐘?!?/p>
具身大模型企業(yè)自變量機器人(X Square)的創(chuàng)始人兼CEO王潛向第一財經(jīng)記者舉了上述例子,來說明想要讓機器人實現(xiàn)物理世界的復(fù)雜交互,需要多少多模態(tài)的真實和仿真數(shù)據(jù)支持?!案匾氖牵瑢τ谝恍?fù)雜的動作,按照此前業(yè)界普遍采用的分層模型邏輯,幾乎是無法實現(xiàn)的事情?!蓖鯘撜f道。
分層模型,曾經(jīng)被認為是機器人領(lǐng)域的黃金法則:先建模、再規(guī)劃、最后執(zhí)行。但在執(zhí)行過程中,王潛發(fā)現(xiàn),隨著每一層模型的傳遞,模型在某一層產(chǎn)生的微小誤差,將會在后續(xù)的環(huán)節(jié)呈現(xiàn)指數(shù)級的擴散。
每分出一個步驟,就有可能給模型引入噪聲。“如果一開始建模的誤差在1%,那隨著分層模型的傳導(dǎo),在執(zhí)行的最終結(jié)果中,很有可能會出現(xiàn)幾十倍的誤差?!蓖鯘撜f道。因此,端到端的模型也逐漸成為了下一個發(fā)展方向。在端到端的模型設(shè)計里,直接連接輸入與輸出的“黑箱”特性,讓具身大模型的自我修正成為可能。
技術(shù)路徑更迭,海量的數(shù)據(jù),始終是橫亙在具身智能大模型面前的天塹。王潛告訴第一財經(jīng)記者,“數(shù)據(jù)饑渴”在行業(yè)中一直存在。“它的底層邏輯是,強化學(xué)習(xí)的路徑需要指數(shù)級增長的數(shù)據(jù),而仿真數(shù)據(jù)又容易因為物理交互的復(fù)雜性難以遷移到現(xiàn)實?!?/p>
這種數(shù)據(jù)饑渴一直到GPT-3的出現(xiàn)才有所緩解?!癎PT-3的出現(xiàn),其實帶給我們的是‘反人類直覺’的啟示?!蓖鯘摻忉?,此前訓(xùn)練機器人的某一動作模型,總是喂給其相似的任務(wù)數(shù)據(jù)語料。“但GPT-3的底層邏輯是,通過多任務(wù)學(xué)習(xí),模型被迫提煉跨任務(wù)的共性規(guī)律,從而具備少樣本甚至零樣本的學(xué)習(xí)能力。”
看似完全不相干的任務(wù),能夠逼迫具身大模型更快地學(xué)習(xí)物理世界的通用原理。王潛說,當模型同時學(xué)習(xí)倒水、換衣服等任務(wù)時,看似沒有直接關(guān)聯(lián),但大模型能通過大量的這些任務(wù),學(xué)習(xí)如何處理類似的摩擦,認識到“抓握”“材質(zhì)”等物理世界通用的邏輯。
一旦這條邏輯得到驗證,那么大語言模型少樣本甚至零樣本的學(xué)習(xí)能力將有機會在具身智能大模型上重現(xiàn),幫助機器人跨越數(shù)據(jù)的死亡谷。
第三方數(shù)據(jù)需“排毒”
盡管GPT3的出現(xiàn),給具身智能大模型帶來了“解藥”,但具身智能數(shù)據(jù)場中的隱形戰(zhàn)爭,仍未停止。
Jerry是一家高校的助理教授,也是國際上最早一批研究具身智能數(shù)據(jù)的學(xué)者之一,他告訴第一財經(jīng)記者,相比于大語言模型上的數(shù)據(jù)資源,具身大模型的數(shù)據(jù)成本會高很多。“過去很長時間內(nèi),互聯(lián)網(wǎng)已經(jīng)完成了人類知識的沉淀,這些資源是一個新的能源,只是過去在底層,AI訓(xùn)練的時候被‘挖’了出來?!?/p>
他告訴記者,大模型的數(shù)據(jù)來源主要分為三塊,第一塊是過去由互聯(lián)網(wǎng)完成了數(shù)字化沉淀的數(shù)據(jù),它記錄了人類對這個世界的感知;第二塊是嫁接了圖文、3D等多種模態(tài)的數(shù)據(jù);第三塊則是通過不同傳感器獲取的數(shù)據(jù)。
“在訓(xùn)練機器人大模型過程當中,我們實際遇到的情況是,這個行業(yè)本來就沒有數(shù)據(jù)資源,所以我們需要冷啟動,將數(shù)據(jù)收集起來,才能實際推動行業(yè)。”王潛說道。
過去幾年,人工智能的火爆,令訓(xùn)練AI模型數(shù)據(jù)添加標簽的Scale AI炙手火熱,在機器人領(lǐng)域是否也會出現(xiàn)類似Scale AI的獨角獸?
隨著機器人行業(yè)的拓展,上游的數(shù)據(jù)供應(yīng)商也不斷涌現(xiàn)。2023年前后,艾歐智能等國內(nèi)第三方的具身智能機器人場景數(shù)據(jù)供應(yīng)商開始出現(xiàn)。2024年年底,智元機器人宣布開源 AgiBot World,智元稱它是一個匯集百萬真實機器人數(shù)據(jù)的開源數(shù)據(jù)集。2025年1月,松靈機器人推出全新通用數(shù)據(jù)采集方案,配備了200°魚眼相機、雙目深度相機等傳感器確保數(shù)據(jù)感知。
不過,另一位使用過第三方提供數(shù)據(jù)的具身智能從業(yè)者告訴第一財經(jīng)記者,就大模型的訓(xùn)練要求來說,第三方的數(shù)據(jù)使用率可能不足1%?!拔覀兘?jīng)常遇到的情況是,買了100萬條數(shù)據(jù),經(jīng)過嚴格的質(zhì)量篩選后,實際投入使用的數(shù)據(jù)量可能只有1萬條甚至更少?!?/p>
上述從業(yè)者向記者解釋,無用的數(shù)據(jù),不僅僅是對模型無幫助,更可能是有毒;有毒的數(shù)據(jù)多了,模型就會崩潰。
在這場隱形的數(shù)據(jù)戰(zhàn)爭中,高質(zhì)量的數(shù)據(jù)也許會成為將來具身智能企業(yè)的核心壁壘?!拔磥?,數(shù)據(jù)集的護城河也許比算法更深?!盝erry說道。
模擬數(shù)據(jù)也要講性價比
相比具身智能大模型,大語言模型走得更前也更快,一些數(shù)據(jù)問題已經(jīng)暴露了出來。
馬斯克在今年社交媒體X上的一場直播中提到,人工智能數(shù)據(jù)訓(xùn)練已經(jīng)耗盡。他表示:“我們基本上已經(jīng)用盡了人類知識的累積總和來進行AI訓(xùn)練,這種情況大約在去年就已經(jīng)發(fā)生了?!比ツ?2月,OpenAI 的前首席科學(xué)家 Ilya Sutskever 也在一次分享中提及,盡管現(xiàn)有的數(shù)據(jù)仍能推動人工智能的發(fā)展,但這個行業(yè)里稱得上可用的新數(shù)據(jù)已經(jīng)接近枯竭。
“對于大模型的預(yù)訓(xùn)練來說,我們所用到的數(shù)據(jù)的確已經(jīng)接近峰值?!泵髟拢ɑ┦菄鴥?nèi)頭部大語言模型的數(shù)據(jù)標注師,她認為,人類生成的優(yōu)質(zhì)內(nèi)容占比正在下降?!岸椰F(xiàn)在大語言模型訓(xùn)練已經(jīng)走向了垂直領(lǐng)域,公用數(shù)據(jù)資源更少。以醫(yī)療領(lǐng)域來舉例,合法、公開的數(shù)據(jù)是很有限的?!?/p>
因此,合成數(shù)據(jù)又成為了“救命稻草”。明月告訴第一財經(jīng)記者,合成數(shù)據(jù)在大模型訓(xùn)練中的占比走高,這是行業(yè)中默認的規(guī)則?!暗欠駮苫糜X,會生成多少幻覺,業(yè)內(nèi)也還在討論中?!?/p>
對于具身智能而言,合成數(shù)據(jù)并不一定比真實數(shù)據(jù)“劃算”。王潛告訴第一財經(jīng)記者,模擬不同狀態(tài)物體所需要的數(shù)據(jù)量不同?!耙驗槲覀儾豢赡苡靡粋€超算中心計算10分鐘來精確模擬晃動一杯水這一幾秒鐘的動作。所以模擬器的精度在合成數(shù)據(jù)時,我們常常都會設(shè)置得比較低。”
因此,一般在模擬器中訓(xùn)練出的模型遷移到現(xiàn)實世界會遇到嚴重的障礙,也就是所謂的泛化性不高。要想訓(xùn)練出泛化性高到可以在現(xiàn)實世界中部署的模型,一種常見的做法是在模擬器中模擬出不同物理規(guī)律的世界,并將大模型放在這些環(huán)境中訓(xùn)練。“如果它在這些環(huán)境中都能夠獲得很好的效果,那么理論上,它再轉(zhuǎn)移到現(xiàn)實世界中去就很簡單了?!?/p>
王潛向記者舉例,如果想要訓(xùn)練出一個能夠操作六個自由參數(shù)量的剛體模型,那需要模擬的數(shù)量級可能在十的六次方?!暗绻且粋€柔性的物體,它也許有100個參數(shù),模擬環(huán)境數(shù)量的量級可能就會大很多,成本和技術(shù)難度都太高了?!蓖鯘撜f道。
“在GPU里跑模擬數(shù)據(jù)也是需要成本的,因此在稍微復(fù)雜一點的任務(wù)上,模擬器其實已經(jīng)有很明顯的劣勢了。”王潛判斷,未來機器人靈巧的手部操作,無法純粹靠模擬器數(shù)據(jù)做出來。
具身智能發(fā)展至今,一些大模型也逐漸浮出水面。星動紀元在去年12月發(fā)布了原生端到端機器人大模型ERA-42;同一時期,靈初智能也發(fā)布了基于強化學(xué)習(xí)的端到端具身模型Psi R0;銀河通用也在今年1月發(fā)布了基于仿真合成大數(shù)據(jù)的具身模型GraspVLA。
不過第一財經(jīng)記者注意到,這些大模型在演示中大多都集中突出了一些簡單的手部姿勢,動作集中在拿放,大模型的泛化性和輸出穩(wěn)定性如何均未有明確展示。
擴大5G規(guī)?;瘧?yīng)用,加快6G研發(fā)進程,推動工業(yè)互聯(lián)網(wǎng)創(chuàng)新發(fā)展,推進算力中心建設(shè)布局優(yōu)化,創(chuàng)新行業(yè)監(jiān)管方式,強化網(wǎng)絡(luò)和數(shù)據(jù)安全保障,加強無線電管理,提升頻譜技術(shù)創(chuàng)新能力和頻譜資源開發(fā)利用水平。
預(yù)計家庭機器人等將在5年左右完成研發(fā)并投入市場,價格在30萬元以上。
①國家超算互聯(lián)網(wǎng)QwQ-32B API接口服務(wù)上線,免費100萬Tokens;②華為已正式組建醫(yī)療衛(wèi)生軍團,重點構(gòu)建AI輔助診斷解決方案體系,推動醫(yī)療大模型在臨床場景的應(yīng)用;③中控技術(shù)與大華股份成立視覺AI聯(lián)合實驗室。
當人口紅利逐漸消退,唯有通過“硅基智能”與“硅基制造”,也就是AI和實體產(chǎn)業(yè)的深度融合,才能重構(gòu)經(jīng)濟增長的底層邏輯。
在科技飛速發(fā)展的21世紀,全球正處于智能化變革的浪潮之中。隨著人工智能、物聯(lián)網(wǎng)等前沿技術(shù)的突破,人形機器人應(yīng)運而生,成為世界各國角逐科技高地的焦點。我國人口老齡化加劇、制造業(yè)亟待升級、教育需求多元化,這些社會現(xiàn)實為其發(fā)展提供了沃土。從國際看,科技巨頭紛紛入局,搶占人形機器人市場份額,試圖主導(dǎo)產(chǎn)業(yè)走向;國內(nèi)政策大力扶持,資本涌入,產(chǎn)學(xué)研緊密合作,一場圍繞人形機器人的科技競賽悄然展開,它承載著提升生活品質(zhì)、變革產(chǎn)業(yè)結(jié)構(gòu)、彰顯科技實力的重任。