分享到微信打開微信,點擊底部的“發(fā)現(xiàn)”, |
DeepSeek開源之后,巨量的協(xié)作者涌入,技術(shù)邊界的探索如火如荼。從長文本到圖文等多模態(tài)的推理能力,在具身智能領(lǐng)域,誰有機會成為第一個吃DeepSeek螃蟹的人?
2月6日,北京大學(xué)聯(lián)合香港科技大學(xué)發(fā)布了多模態(tài)版DeepSeek-R1——Align-DS-V。在DeepSeek R1開源的基礎(chǔ)之上,團隊基于自研框架align-anything,將純文本模態(tài)的Deepseek R1 系列模型拓展至了圖文模態(tài)。多模態(tài)場景加持之下,Align-DS-V能否打破單一文本推理界限,成為了研發(fā)團隊的下一個聚焦點。
該項目指導(dǎo)教師北京?學(xué)??智能研究院楊耀東助理教授告訴第一財經(jīng)記者,Align-R1-V的多模態(tài)強推理能力同樣也能夠成為機器人VLA(Vision Language Action,視覺語言行動) 模型大腦端的核心。如果能夠利用Align-R1-V的跨模態(tài)穿透能力實現(xiàn)機器人Action領(lǐng)域的穿透,或許機器人端到端大模型板塊的最后一塊拼圖,將會被很快補齊。
站在DeepSeek肩上挑戰(zhàn)全模態(tài)
全模態(tài)的信息處理能力,對于人類來說習(xí)以為常,但對于機器人來說,仍然是一個復(fù)雜的程序。
“一個遙控器,放在任何位置,人都能輕而易舉地拿到,但機器人不具備這樣的能力。”具身大模型企業(yè)靈初智能的創(chuàng)始人兼CEO王啟斌告訴第一財經(jīng)記者,人類能夠通過視覺、聽覺、觸覺等多個模態(tài)能力輕松完成這件事。但在機器人的思考邏輯里,“拿遙控器”這個動作是“牽一發(fā)而動全身”的事情。
感知層面,機器人需要依靠攝像頭等視覺傳感器進行定位和導(dǎo)航,也許還需要通過深度攝像頭等深度傳感器獲得環(huán)境信息,為后續(xù)的規(guī)劃提供依據(jù)。
在大腦側(cè),為了拿到遙控器,機器人需要實時感知環(huán)境變化和自身狀態(tài),做出相應(yīng)的決策,比如,當(dāng)沙發(fā)上有其他物品擋住了遙控器,機器人的大腦就需要重新規(guī)劃機械臂的運動路徑,或者調(diào)整抓取策略。
僅是“拿”這一個動作,機器人還需要控制自身的抓夾或靈巧手等末端執(zhí)行器,根據(jù)遙控器的形狀、大小和重量,調(diào)整夾取的力度和方式。“如果這個遙控器是光滑的,那手指的閉合力度反饋就需要非常敏感,既保證能夠夾緊遙控器,又不會讓遙控器滑落。”王啟斌解釋道。
人能夠在幾秒內(nèi)完成思考并執(zhí)行任務(wù),是因為人類在日常生活中接收到的信息往往是全模態(tài)的。文本、視覺、語言等信息通過不同的感官渠道相互補充,讓人類能夠全面理解和表達復(fù)雜的概念。
“這種全模態(tài)的信息流對于大模型范式轉(zhuǎn)向通用人工智能也一樣重要。”北大團隊方面表示,全模態(tài)拓展會是Deep Seek R1的下一個突破。“我們需要在復(fù)雜的決策場景中構(gòu)建起感知-理解-推演的閉環(huán)認(rèn)知體系,才能在具身智能等領(lǐng)域拓展智能邊界。”
當(dāng)前,Align-DS-V已經(jīng)將DeepSeek R1系列模型拓展至了圖文模態(tài)。“全模態(tài)大模型仍然是我們努力的方向。”北大團隊方面表示,未來,支持任意模態(tài)輸入并生成任意模態(tài)輸出的全模態(tài)大模型將成為大模型的里程碑,“不過,如何將全模態(tài)大模型和人類意圖對齊,仍然是一個重要的挑戰(zhàn)”。
強化學(xué)習(xí)“開掛”
DeepSeek R1-Zero和Align-DS-V的出現(xiàn),不斷證明著強化學(xué)習(xí)的潛力。據(jù)了解,DeepSeek R1-Zero 從基礎(chǔ)模型構(gòu)建開始,就完全依賴強化學(xué)習(xí)(RL),?不使??類專家標(biāo)注的監(jiān)督微調(diào)(SFT)。
“機器人想要進入更多的場景,在復(fù)雜的交互環(huán)境中作業(yè),強化學(xué)習(xí)是必經(jīng)之路。”師從李飛飛的靈初智能聯(lián)合創(chuàng)始人陳源培告訴第一財經(jīng)記者,機器人和環(huán)境的交互是一個復(fù)雜的過程,很難通過人工來設(shè)計一個精確的模型,如果只是通過深度學(xué)習(xí)的方法來訓(xùn)練,機器人在不同場景中對不同對象的操作靈活性難以保證,且需要大量的高質(zhì)量數(shù)據(jù)或樣本,成本高昂。
他向記者解釋,如果采用強化學(xué)習(xí)的路徑,能夠利用改變獎勵函數(shù)的方式推動機器人訓(xùn)練,并通過大量的仿真數(shù)據(jù)來完成訓(xùn)練。
“我們看到目前市面上絕大多數(shù)的機器人還是在展示單一的抓取能力,但在實際的應(yīng)用中,抓取目標(biāo)完全孤立的狀況非常少。”王啟斌表示,機器人在工作中,常常面對的是雜亂的環(huán)境,物體和物體之間存在不少的堆疊和遮擋,這給機器人準(zhǔn)確識別目標(biāo)和確定適當(dāng)?shù)淖ト∥恢脦砹颂魬?zhàn)。
正因如此,王啟斌認(rèn)為,機器人的多技能串聯(lián)能力是始終必要的。“能否盡快理解物體所具有的復(fù)雜物理屬性,始終是機器人必須解決的問題。”王啟斌表示,他認(rèn)為比較務(wù)實的路徑是,三年之內(nèi),機器人能夠在有限的技能之內(nèi)實現(xiàn)物體泛化,“就比如說在物體打包領(lǐng)域,機器人能夠針對不同的物體熟練地進行分揀、打包、掃碼,這也是我們想要迭代的方向”。
具身大模型加速硬件綁定
如今,具身智能領(lǐng)域的大模型競爭正快速向具體場景收攏。去年年底,靈初智能發(fā)布了基于強化學(xué)習(xí)的端到端具身模型Psi R0。在Psi R0的支持下,靈巧手能夠?qū)⒍鄠€技能串聯(lián),在混合訓(xùn)練后生成具有推理能力的智能體,并實現(xiàn)跨場景、跨物體的泛化。
同月,星動紀(jì)元發(fā)布了端到端原生機器人大模型ERA-42,并展示了大模型和星動XHAND1靈巧手結(jié)合后的操作能力。根據(jù)星動紀(jì)元的展示,搭載ERA-42的靈巧手已經(jīng)能夠完成用錘子敲打釘子、拿起桌上螺釘鉆鉆進螺釘?shù)炔僮鳌?/p>
1月9日,銀河通用發(fā)布GraspVLA,號稱這是全球首個端到端具身抓取基礎(chǔ)大模型(Foundation Model)。根據(jù)銀河通用披露的內(nèi)容,GraspVLA 使用合成數(shù)據(jù)預(yù)訓(xùn)練,在后訓(xùn)練的過程中,能夠針對特定需求,將小樣本學(xué)習(xí)即可遷移基礎(chǔ)能力到特定場景。
從具身智能企業(yè)最新發(fā)布的大模型中,不難看出,越來越多的企業(yè)正在將大模型和操作場景進行強關(guān)聯(lián)綁定,這是否也意味著具身智能大模型的應(yīng)用場景正在逐漸收斂?薩摩耶云科技集團AI機器人行業(yè)研究員鄭揚洋告訴第一財經(jīng)記者,盡管大模型增強了機器人的學(xué)習(xí)、語義理解、推理及判斷能力,但在從理解、推理、判斷、執(zhí)行到運動的過程中,還涉及其他多種模型算法和軟硬件協(xié)同的問題。
“與其說是場景的收斂,不如說是企業(yè)在變得更加現(xiàn)實。”鄭揚洋判斷,企業(yè)未來會更多聚焦到操作場景當(dāng)中,持續(xù)迭代機器人的技能級,并提高軟件和硬件的耦合程度。“具身智能的大模型版圖才剛剛開始搭建,聚焦更明確的場景和能力,對于企業(yè)來說,性價比也比較高。”
鄭揚洋指出,像Align-R1-V這樣的大模型出現(xiàn),意味著具身智能VLA模型擁有跨模態(tài)穿透的認(rèn)知大腦,但仍然需要通過動作生成模塊、實時控制系統(tǒng)、物理交互數(shù)據(jù)和安全框架的補齊,才能夠?qū)崿F(xiàn)多模態(tài)理解到具身智能體的跨越。“軟件模型和機器人硬件,比如機械臂、靈巧手、驅(qū)動芯片等的集成,還需要一定時間。”鄭揚洋說。
DeepSeek爆火之后,當(dāng)大模型從文本模態(tài)擴展至多模態(tài)、全模態(tài)場景之下,更多問題也相繼而來。“多模態(tài)擴展到全模態(tài)空間,模態(tài)交互更加復(fù)雜,RL?法需要做哪些改進?模態(tài)數(shù)量增加,傳統(tǒng)?元偏好或規(guī)則獎勵是否能夠捕捉?類意圖的多元偏好?這些都是我們需要解決的問題。”楊耀東說。
2025年,浦東重大建設(shè)項目年度投資規(guī)模1692億元,繼續(xù)保持穩(wěn)步增長。其中,科技產(chǎn)業(yè)類投資規(guī)模進一步擴大,年度投資1212億元,占比71%。
如果DeepSeek能夠用十分之一的成本達到GPT-o1級別的表現(xiàn),那一直以來困囿于訓(xùn)練成本高昂的具身智能企業(yè),是否有機會用更短的時間訓(xùn)練出一個更智能、更通用的具身智能大模型?
重塑AI世界的力量不僅僅在硅谷,更在新一代全球化創(chuàng)業(yè)者的手中。
具身智能機器人的關(guān)鍵在于具身智能的底層技術(shù),而非機器人的物理形狀。
維他動力于2024年底在北京成立,其創(chuàng)始團隊來自地平線、理想汽車等汽車產(chǎn)業(yè)鏈公司。