分享到微信打開(kāi)微信,點(diǎn)擊底部的“發(fā)現(xiàn)”, |
第一財(cái)經(jīng) 2025-02-19 11:49:41 聽(tīng)新聞
作者:?jiǎn)绦拟?nbsp; 責(zé)編:劉佳
當(dāng)馬斯克正在擔(dān)憂AI訓(xùn)練數(shù)據(jù)已經(jīng)耗盡的時(shí)候,具身智能企業(yè)正在面臨殘酷的數(shù)據(jù)生死局:訓(xùn)練一個(gè)倒水動(dòng)作需要一臺(tái)超算運(yùn)算千萬(wàn)億次、第三方的數(shù)據(jù)“有毒”隨時(shí)會(huì)讓模型崩潰,仿真數(shù)據(jù)成本也正在攀升……
在這場(chǎng)決定未來(lái)機(jī)器人進(jìn)化速度和方向的隱形數(shù)據(jù)大戰(zhàn)中,有具身智能企業(yè)正通過(guò)“反直覺(jué)”的訓(xùn)練方法撕開(kāi)突破口,讓機(jī)器人在不相關(guān)的雜亂任務(wù)中領(lǐng)悟物理法則,試圖建立數(shù)據(jù)護(hù)城河。
當(dāng)AI向物理空間延伸,數(shù)據(jù)極有可能成為重塑技術(shù)權(quán)力的關(guān)鍵。不過(guò),機(jī)器人想要跨越臨界值,迎來(lái)具身大模型的GPT時(shí)刻,還需要解決數(shù)據(jù)質(zhì)量、算法、算力等多方面的問(wèn)題。畢竟,具身智能的終局不會(huì)是單點(diǎn)技術(shù)的勝利,而是軟件、硬件與商業(yè)模式的系統(tǒng)戰(zhàn)爭(zhēng)。
克服“數(shù)據(jù)饑渴”
想要訓(xùn)練一個(gè)機(jī)器人的大模型,究竟需要多少數(shù)據(jù)?
“通常來(lái)講,一臺(tái)超級(jí)計(jì)算機(jī),每秒鐘可以進(jìn)行千萬(wàn)億次到數(shù)百億億次浮點(diǎn)運(yùn)算,而光是想要模擬人晃動(dòng)杯中的水這一個(gè)動(dòng)作,所涉及的計(jì)算量可能就需要一臺(tái)超級(jí)計(jì)算機(jī)算十分鐘?!?/p>
具身大模型企業(yè)自變量機(jī)器人(X Square)的創(chuàng)始人兼CEO王潛向第一財(cái)經(jīng)記者舉了上述例子,來(lái)說(shuō)明想要讓機(jī)器人實(shí)現(xiàn)物理世界的復(fù)雜交互,需要多少多模態(tài)的真實(shí)和仿真數(shù)據(jù)支持?!案匾氖?,對(duì)于一些復(fù)雜的動(dòng)作,按照此前業(yè)界普遍采用的分層模型邏輯,幾乎是無(wú)法實(shí)現(xiàn)的事情?!蓖鯘撜f(shuō)道。
分層模型,曾經(jīng)被認(rèn)為是機(jī)器人領(lǐng)域的黃金法則:先建模、再規(guī)劃、最后執(zhí)行。但在執(zhí)行過(guò)程中,王潛發(fā)現(xiàn),隨著每一層模型的傳遞,模型在某一層產(chǎn)生的微小誤差,將會(huì)在后續(xù)的環(huán)節(jié)呈現(xiàn)指數(shù)級(jí)的擴(kuò)散。
每分出一個(gè)步驟,就有可能給模型引入噪聲。“如果一開(kāi)始建模的誤差在1%,那隨著分層模型的傳導(dǎo),在執(zhí)行的最終結(jié)果中,很有可能會(huì)出現(xiàn)幾十倍的誤差?!蓖鯘撜f(shuō)道。因此,端到端的模型也逐漸成為了下一個(gè)發(fā)展方向。在端到端的模型設(shè)計(jì)里,直接連接輸入與輸出的“黑箱”特性,讓具身大模型的自我修正成為可能。
技術(shù)路徑更迭,海量的數(shù)據(jù),始終是橫亙?cè)诰呱碇悄艽竽P兔媲暗奶靿q。王潛告訴第一財(cái)經(jīng)記者,“數(shù)據(jù)饑渴”在行業(yè)中一直存在?!八牡讓舆壿嬍?,強(qiáng)化學(xué)習(xí)的路徑需要指數(shù)級(jí)增長(zhǎng)的數(shù)據(jù),而仿真數(shù)據(jù)又容易因?yàn)槲锢斫换サ膹?fù)雜性難以遷移到現(xiàn)實(shí)。”
這種數(shù)據(jù)饑渴一直到GPT-3的出現(xiàn)才有所緩解?!癎PT-3的出現(xiàn),其實(shí)帶給我們的是‘反人類(lèi)直覺(jué)’的啟示。”王潛解釋?zhuān)饲坝?xùn)練機(jī)器人的某一動(dòng)作模型,總是喂給其相似的任務(wù)數(shù)據(jù)語(yǔ)料?!暗獹PT-3的底層邏輯是,通過(guò)多任務(wù)學(xué)習(xí),模型被迫提煉跨任務(wù)的共性規(guī)律,從而具備少樣本甚至零樣本的學(xué)習(xí)能力?!?/p>
看似完全不相干的任務(wù),能夠逼迫具身大模型更快地學(xué)習(xí)物理世界的通用原理。王潛說(shuō),當(dāng)模型同時(shí)學(xué)習(xí)倒水、換衣服等任務(wù)時(shí),看似沒(méi)有直接關(guān)聯(lián),但大模型能通過(guò)大量的這些任務(wù),學(xué)習(xí)如何處理類(lèi)似的摩擦,認(rèn)識(shí)到“抓握”“材質(zhì)”等物理世界通用的邏輯。
一旦這條邏輯得到驗(yàn)證,那么大語(yǔ)言模型少樣本甚至零樣本的學(xué)習(xí)能力將有機(jī)會(huì)在具身智能大模型上重現(xiàn),幫助機(jī)器人跨越數(shù)據(jù)的死亡谷。
第三方數(shù)據(jù)需“排毒”
盡管GPT3的出現(xiàn),給具身智能大模型帶來(lái)了“解藥”,但具身智能數(shù)據(jù)場(chǎng)中的隱形戰(zhàn)爭(zhēng),仍未停止。
Jerry是一家高校的助理教授,也是國(guó)際上最早一批研究具身智能數(shù)據(jù)的學(xué)者之一,他告訴第一財(cái)經(jīng)記者,相比于大語(yǔ)言模型上的數(shù)據(jù)資源,具身大模型的數(shù)據(jù)成本會(huì)高很多?!斑^(guò)去很長(zhǎng)時(shí)間內(nèi),互聯(lián)網(wǎng)已經(jīng)完成了人類(lèi)知識(shí)的沉淀,這些資源是一個(gè)新的能源,只是過(guò)去在底層,AI訓(xùn)練的時(shí)候被‘挖’了出來(lái)。”
他告訴記者,大模型的數(shù)據(jù)來(lái)源主要分為三塊,第一塊是過(guò)去由互聯(lián)網(wǎng)完成了數(shù)字化沉淀的數(shù)據(jù),它記錄了人類(lèi)對(duì)這個(gè)世界的感知;第二塊是嫁接了圖文、3D等多種模態(tài)的數(shù)據(jù);第三塊則是通過(guò)不同傳感器獲取的數(shù)據(jù)。
“在訓(xùn)練機(jī)器人大模型過(guò)程當(dāng)中,我們實(shí)際遇到的情況是,這個(gè)行業(yè)本來(lái)就沒(méi)有數(shù)據(jù)資源,所以我們需要冷啟動(dòng),將數(shù)據(jù)收集起來(lái),才能實(shí)際推動(dòng)行業(yè)。”王潛說(shuō)道。
過(guò)去幾年,人工智能的火爆,令訓(xùn)練AI模型數(shù)據(jù)添加標(biāo)簽的Scale AI炙手火熱,在機(jī)器人領(lǐng)域是否也會(huì)出現(xiàn)類(lèi)似Scale AI的獨(dú)角獸?
隨著機(jī)器人行業(yè)的拓展,上游的數(shù)據(jù)供應(yīng)商也不斷涌現(xiàn)。2023年前后,艾歐智能等國(guó)內(nèi)第三方的具身智能機(jī)器人場(chǎng)景數(shù)據(jù)供應(yīng)商開(kāi)始出現(xiàn)。2024年年底,智元機(jī)器人宣布開(kāi)源 AgiBot World,智元稱它是一個(gè)匯集百萬(wàn)真實(shí)機(jī)器人數(shù)據(jù)的開(kāi)源數(shù)據(jù)集。2025年1月,松靈機(jī)器人推出全新通用數(shù)據(jù)采集方案,配備了200°魚(yú)眼相機(jī)、雙目深度相機(jī)等傳感器確保數(shù)據(jù)感知。
不過(guò),另一位使用過(guò)第三方提供數(shù)據(jù)的具身智能從業(yè)者告訴第一財(cái)經(jīng)記者,就大模型的訓(xùn)練要求來(lái)說(shuō),第三方的數(shù)據(jù)使用率可能不足1%?!拔覀兘?jīng)常遇到的情況是,買(mǎi)了100萬(wàn)條數(shù)據(jù),經(jīng)過(guò)嚴(yán)格的質(zhì)量篩選后,實(shí)際投入使用的數(shù)據(jù)量可能只有1萬(wàn)條甚至更少。”
上述從業(yè)者向記者解釋?zhuān)瑹o(wú)用的數(shù)據(jù),不僅僅是對(duì)模型無(wú)幫助,更可能是有毒;有毒的數(shù)據(jù)多了,模型就會(huì)崩潰。
在這場(chǎng)隱形的數(shù)據(jù)戰(zhàn)爭(zhēng)中,高質(zhì)量的數(shù)據(jù)也許會(huì)成為將來(lái)具身智能企業(yè)的核心壁壘。“未來(lái),數(shù)據(jù)集的護(hù)城河也許比算法更深?!盝erry說(shuō)道。
模擬數(shù)據(jù)也要講性價(jià)比
相比具身智能大模型,大語(yǔ)言模型走得更前也更快,一些數(shù)據(jù)問(wèn)題已經(jīng)暴露了出來(lái)。
馬斯克在今年社交媒體X上的一場(chǎng)直播中提到,人工智能數(shù)據(jù)訓(xùn)練已經(jīng)耗盡。他表示:“我們基本上已經(jīng)用盡了人類(lèi)知識(shí)的累積總和來(lái)進(jìn)行AI訓(xùn)練,這種情況大約在去年就已經(jīng)發(fā)生了?!比ツ?2月,OpenAI 的前首席科學(xué)家 Ilya Sutskever 也在一次分享中提及,盡管現(xiàn)有的數(shù)據(jù)仍能推動(dòng)人工智能的發(fā)展,但這個(gè)行業(yè)里稱得上可用的新數(shù)據(jù)已經(jīng)接近枯竭。
“對(duì)于大模型的預(yù)訓(xùn)練來(lái)說(shuō),我們所用到的數(shù)據(jù)的確已經(jīng)接近峰值?!泵髟拢ɑ┦菄?guó)內(nèi)頭部大語(yǔ)言模型的數(shù)據(jù)標(biāo)注師,她認(rèn)為,人類(lèi)生成的優(yōu)質(zhì)內(nèi)容占比正在下降?!岸椰F(xiàn)在大語(yǔ)言模型訓(xùn)練已經(jīng)走向了垂直領(lǐng)域,公用數(shù)據(jù)資源更少。以醫(yī)療領(lǐng)域來(lái)舉例,合法、公開(kāi)的數(shù)據(jù)是很有限的。”
因此,合成數(shù)據(jù)又成為了“救命稻草”。明月告訴第一財(cái)經(jīng)記者,合成數(shù)據(jù)在大模型訓(xùn)練中的占比走高,這是行業(yè)中默認(rèn)的規(guī)則?!暗欠駮?huì)生成幻覺(jué),會(huì)生成多少幻覺(jué),業(yè)內(nèi)也還在討論中?!?/p>
對(duì)于具身智能而言,合成數(shù)據(jù)并不一定比真實(shí)數(shù)據(jù)“劃算”。王潛告訴第一財(cái)經(jīng)記者,模擬不同狀態(tài)物體所需要的數(shù)據(jù)量不同?!耙?yàn)槲覀儾豢赡苡靡粋€(gè)超算中心計(jì)算10分鐘來(lái)精確模擬晃動(dòng)一杯水這一幾秒鐘的動(dòng)作。所以模擬器的精度在合成數(shù)據(jù)時(shí),我們常常都會(huì)設(shè)置得比較低?!?/p>
因此,一般在模擬器中訓(xùn)練出的模型遷移到現(xiàn)實(shí)世界會(huì)遇到嚴(yán)重的障礙,也就是所謂的泛化性不高。要想訓(xùn)練出泛化性高到可以在現(xiàn)實(shí)世界中部署的模型,一種常見(jiàn)的做法是在模擬器中模擬出不同物理規(guī)律的世界,并將大模型放在這些環(huán)境中訓(xùn)練?!叭绻谶@些環(huán)境中都能夠獲得很好的效果,那么理論上,它再轉(zhuǎn)移到現(xiàn)實(shí)世界中去就很簡(jiǎn)單了。”
王潛向記者舉例,如果想要訓(xùn)練出一個(gè)能夠操作六個(gè)自由參數(shù)量的剛體模型,那需要模擬的數(shù)量級(jí)可能在十的六次方。“但如果是一個(gè)柔性的物體,它也許有100個(gè)參數(shù),模擬環(huán)境數(shù)量的量級(jí)可能就會(huì)大很多,成本和技術(shù)難度都太高了。”王潛說(shuō)道。
“在GPU里跑模擬數(shù)據(jù)也是需要成本的,因此在稍微復(fù)雜一點(diǎn)的任務(wù)上,模擬器其實(shí)已經(jīng)有很明顯的劣勢(shì)了?!蓖鯘撆袛啵磥?lái)機(jī)器人靈巧的手部操作,無(wú)法純粹靠模擬器數(shù)據(jù)做出來(lái)。
具身智能發(fā)展至今,一些大模型也逐漸浮出水面。星動(dòng)紀(jì)元在去年12月發(fā)布了原生端到端機(jī)器人大模型ERA-42;同一時(shí)期,靈初智能也發(fā)布了基于強(qiáng)化學(xué)習(xí)的端到端具身模型Psi R0;銀河通用也在今年1月發(fā)布了基于仿真合成大數(shù)據(jù)的具身模型GraspVLA。
不過(guò)第一財(cái)經(jīng)記者注意到,這些大模型在演示中大多都集中突出了一些簡(jiǎn)單的手部姿勢(shì),動(dòng)作集中在拿放,大模型的泛化性和輸出穩(wěn)定性如何均未有明確展示。
擴(kuò)大5G規(guī)?;瘧?yīng)用,加快6G研發(fā)進(jìn)程,推動(dòng)工業(yè)互聯(lián)網(wǎng)創(chuàng)新發(fā)展,推進(jìn)算力中心建設(shè)布局優(yōu)化,創(chuàng)新行業(yè)監(jiān)管方式,強(qiáng)化網(wǎng)絡(luò)和數(shù)據(jù)安全保障,加強(qiáng)無(wú)線電管理,提升頻譜技術(shù)創(chuàng)新能力和頻譜資源開(kāi)發(fā)利用水平。
預(yù)計(jì)家庭機(jī)器人等將在5年左右完成研發(fā)并投入市場(chǎng),價(jià)格在30萬(wàn)元以上。
①國(guó)家超算互聯(lián)網(wǎng)QwQ-32B API接口服務(wù)上線,免費(fèi)100萬(wàn)Tokens;②華為已正式組建醫(yī)療衛(wèi)生軍團(tuán),重點(diǎn)構(gòu)建AI輔助診斷解決方案體系,推動(dòng)醫(yī)療大模型在臨床場(chǎng)景的應(yīng)用;③中控技術(shù)與大華股份成立視覺(jué)AI聯(lián)合實(shí)驗(yàn)室。
當(dāng)人口紅利逐漸消退,唯有通過(guò)“硅基智能”與“硅基制造”,也就是AI和實(shí)體產(chǎn)業(yè)的深度融合,才能重構(gòu)經(jīng)濟(jì)增長(zhǎng)的底層邏輯。
在科技飛速發(fā)展的21世紀(jì),全球正處于智能化變革的浪潮之中。隨著人工智能、物聯(lián)網(wǎng)等前沿技術(shù)的突破,人形機(jī)器人應(yīng)運(yùn)而生,成為世界各國(guó)角逐科技高地的焦點(diǎn)。我國(guó)人口老齡化加劇、制造業(yè)亟待升級(jí)、教育需求多元化,這些社會(huì)現(xiàn)實(shí)為其發(fā)展提供了沃土。從國(guó)際看,科技巨頭紛紛入局,搶占人形機(jī)器人市場(chǎng)份額,試圖主導(dǎo)產(chǎn)業(yè)走向;國(guó)內(nèi)政策大力扶持,資本涌入,產(chǎn)學(xué)研緊密合作,一場(chǎng)圍繞人形機(jī)器人的科技競(jìng)賽悄然展開(kāi),它承載著提升生活品質(zhì)、變革產(chǎn)業(yè)結(jié)構(gòu)、彰顯科技實(shí)力的重任。