亚洲中文字乱码免费播放,精品国产日韩专区欧美第一页,亚洲中文有码字幕青青,亚洲综合另类专区在线

          首頁 > 新聞 > 科技

          分享到微信

          打開微信,點擊底部的“發(fā)現(xiàn)”,
          使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。

          站在DeepSeek肩上,具身智能“起跳”

          第一財經(jīng) 2025-02-06 18:52:15 聽新聞

          作者:喬心怡    責(zé)編:李娜

          如果能夠利用Align-R1-V的跨模態(tài)穿透能力實現(xiàn)機器人Action領(lǐng)域的穿透,或許機器人端到端大模型板塊的最后一塊拼圖,將會被很快補齊。

          DeepSeek開源之后,巨量的協(xié)作者涌入,技術(shù)邊界的探索如火如荼。從長文本到圖文等多模態(tài)的推理能力,在具身智能領(lǐng)域,誰有機會成為第一個吃DeepSeek螃蟹的人?

          2月6日,北京大學(xué)聯(lián)合香港科技大學(xué)發(fā)布了多模態(tài)版DeepSeek-R1——Align-DS-V。在DeepSeek R1開源的基礎(chǔ)之上,團隊基于自研框架align-anything,將純文本模態(tài)的Deepseek R1 系列模型拓展至了圖文模態(tài)。多模態(tài)場景加持之下,Align-DS-V能否打破單一文本推理界限,成為了研發(fā)團隊的下一個聚焦點。

          該項目指導(dǎo)教師北京?學(xué)??智能研究院楊耀東助理教授告訴第一財經(jīng)記者,Align-R1-V的多模態(tài)強推理能力同樣也能夠成為機器人VLA(Vision Language Action,視覺語言行動) 模型大腦端的核心。如果能夠利用Align-R1-V的跨模態(tài)穿透能力實現(xiàn)機器人Action領(lǐng)域的穿透,或許機器人端到端大模型板塊的最后一塊拼圖,將會被很快補齊。

          站在DeepSeek肩上挑戰(zhàn)全模態(tài)

          全模態(tài)的信息處理能力,對于人類來說習(xí)以為常,但對于機器人來說,仍然是一個復(fù)雜的程序。

          “一個遙控器,放在任何位置,人都能輕而易舉地拿到,但機器人不具備這樣的能力。”具身大模型企業(yè)靈初智能的創(chuàng)始人兼CEO王啟斌告訴第一財經(jīng)記者,人類能夠通過視覺、聽覺、觸覺等多個模態(tài)能力輕松完成這件事。但在機器人的思考邏輯里,“拿遙控器”這個動作是“牽一發(fā)而動全身”的事情。

          感知層面,機器人需要依靠攝像頭等視覺傳感器進行定位和導(dǎo)航,也許還需要通過深度攝像頭等深度傳感器獲得環(huán)境信息,為后續(xù)的規(guī)劃提供依據(jù)。

          在大腦側(cè),為了拿到遙控器,機器人需要實時感知環(huán)境變化和自身狀態(tài),做出相應(yīng)的決策,比如,當(dāng)沙發(fā)上有其他物品擋住了遙控器,機器人的大腦就需要重新規(guī)劃機械臂的運動路徑,或者調(diào)整抓取策略。

          僅是“拿”這一個動作,機器人還需要控制自身的抓夾或靈巧手等末端執(zhí)行器,根據(jù)遙控器的形狀、大小和重量,調(diào)整夾取的力度和方式。“如果這個遙控器是光滑的,那手指的閉合力度反饋就需要非常敏感,既保證能夠夾緊遙控器,又不會讓遙控器滑落。”王啟斌解釋道。

          人能夠在幾秒內(nèi)完成思考并執(zhí)行任務(wù),是因為人類在日常生活中接收到的信息往往是全模態(tài)的。文本、視覺、語言等信息通過不同的感官渠道相互補充,讓人類能夠全面理解和表達復(fù)雜的概念。

          “這種全模態(tài)的信息流對于大模型范式轉(zhuǎn)向通用人工智能也一樣重要。”北大團隊方面表示,全模態(tài)拓展會是Deep Seek R1的下一個突破。“我們需要在復(fù)雜的決策場景中構(gòu)建起感知-理解-推演的閉環(huán)認(rèn)知體系,才能在具身智能等領(lǐng)域拓展智能邊界。”

          當(dāng)前,Align-DS-V已經(jīng)將DeepSeek R1系列模型拓展至了圖文模態(tài)。“全模態(tài)大模型仍然是我們努力的方向。”北大團隊方面表示,未來,支持任意模態(tài)輸入并生成任意模態(tài)輸出的全模態(tài)大模型將成為大模型的里程碑,“不過,如何將全模態(tài)大模型和人類意圖對齊,仍然是一個重要的挑戰(zhàn)”。

          強化學(xué)習(xí)“開掛”

          DeepSeek R1-Zero和Align-DS-V的出現(xiàn),不斷證明著強化學(xué)習(xí)的潛力。據(jù)了解,DeepSeek R1-Zero 從基礎(chǔ)模型構(gòu)建開始,就完全依賴強化學(xué)習(xí)(RL),?不使??類專家標(biāo)注的監(jiān)督微調(diào)(SFT)。

          “機器人想要進入更多的場景,在復(fù)雜的交互環(huán)境中作業(yè),強化學(xué)習(xí)是必經(jīng)之路。”師從李飛飛的靈初智能聯(lián)合創(chuàng)始人陳源培告訴第一財經(jīng)記者,機器人和環(huán)境的交互是一個復(fù)雜的過程,很難通過人工來設(shè)計一個精確的模型,如果只是通過深度學(xué)習(xí)的方法來訓(xùn)練,機器人在不同場景中對不同對象的操作靈活性難以保證,且需要大量的高質(zhì)量數(shù)據(jù)或樣本,成本高昂。

          他向記者解釋,如果采用強化學(xué)習(xí)的路徑,能夠利用改變獎勵函數(shù)的方式推動機器人訓(xùn)練,并通過大量的仿真數(shù)據(jù)來完成訓(xùn)練。

          “我們看到目前市面上絕大多數(shù)的機器人還是在展示單一的抓取能力,但在實際的應(yīng)用中,抓取目標(biāo)完全孤立的狀況非常少。”王啟斌表示,機器人在工作中,常常面對的是雜亂的環(huán)境,物體和物體之間存在不少的堆疊和遮擋,這給機器人準(zhǔn)確識別目標(biāo)和確定適當(dāng)?shù)淖ト∥恢脦砹颂魬?zhàn)。

          正因如此,王啟斌認(rèn)為,機器人的多技能串聯(lián)能力是始終必要的。“能否盡快理解物體所具有的復(fù)雜物理屬性,始終是機器人必須解決的問題。”王啟斌表示,他認(rèn)為比較務(wù)實的路徑是,三年之內(nèi),機器人能夠在有限的技能之內(nèi)實現(xiàn)物體泛化,“就比如說在物體打包領(lǐng)域,機器人能夠針對不同的物體熟練地進行分揀、打包、掃碼,這也是我們想要迭代的方向”。

          具身大模型加速硬件綁定

          如今,具身智能領(lǐng)域的大模型競爭正快速向具體場景收攏。去年年底,靈初智能發(fā)布了基于強化學(xué)習(xí)的端到端具身模型Psi R0。在Psi R0的支持下,靈巧手能夠?qū)⒍鄠€技能串聯(lián),在混合訓(xùn)練后生成具有推理能力的智能體,并實現(xiàn)跨場景、跨物體的泛化。

          同月,星動紀(jì)元發(fā)布了端到端原生機器人大模型ERA-42,并展示了大模型和星動XHAND1靈巧手結(jié)合后的操作能力。根據(jù)星動紀(jì)元的展示,搭載ERA-42的靈巧手已經(jīng)能夠完成用錘子敲打釘子、拿起桌上螺釘鉆鉆進螺釘?shù)炔僮鳌?/p>

          1月9日,銀河通用發(fā)布GraspVLA,號稱這是全球首個端到端具身抓取基礎(chǔ)大模型(Foundation Model)。根據(jù)銀河通用披露的內(nèi)容,GraspVLA 使用合成數(shù)據(jù)預(yù)訓(xùn)練,在后訓(xùn)練的過程中,能夠針對特定需求,將小樣本學(xué)習(xí)即可遷移基礎(chǔ)能力到特定場景。

          從具身智能企業(yè)最新發(fā)布的大模型中,不難看出,越來越多的企業(yè)正在將大模型和操作場景進行強關(guān)聯(lián)綁定,這是否也意味著具身智能大模型的應(yīng)用場景正在逐漸收斂?薩摩耶云科技集團AI機器人行業(yè)研究員鄭揚洋告訴第一財經(jīng)記者,盡管大模型增強了機器人的學(xué)習(xí)、語義理解、推理及判斷能力,但在從理解、推理、判斷、執(zhí)行到運動的過程中,還涉及其他多種模型算法和軟硬件協(xié)同的問題。

          “與其說是場景的收斂,不如說是企業(yè)在變得更加現(xiàn)實。”鄭揚洋判斷,企業(yè)未來會更多聚焦到操作場景當(dāng)中,持續(xù)迭代機器人的技能級,并提高軟件和硬件的耦合程度。“具身智能的大模型版圖才剛剛開始搭建,聚焦更明確的場景和能力,對于企業(yè)來說,性價比也比較高。”

          鄭揚洋指出,像Align-R1-V這樣的大模型出現(xiàn),意味著具身智能VLA模型擁有跨模態(tài)穿透的認(rèn)知大腦,但仍然需要通過動作生成模塊、實時控制系統(tǒng)、物理交互數(shù)據(jù)和安全框架的補齊,才能夠?qū)崿F(xiàn)多模態(tài)理解到具身智能體的跨越。“軟件模型和機器人硬件,比如機械臂、靈巧手、驅(qū)動芯片等的集成,還需要一定時間。”鄭揚洋說。

          DeepSeek爆火之后,當(dāng)大模型從文本模態(tài)擴展至多模態(tài)、全模態(tài)場景之下,更多問題也相繼而來。“多模態(tài)擴展到全模態(tài)空間,模態(tài)交互更加復(fù)雜,RL?法需要做哪些改進?模態(tài)數(shù)量增加,傳統(tǒng)?元偏好或規(guī)則獎勵是否能夠捕捉?類意圖的多元偏好?這些都是我們需要解決的問題。”楊耀東說。

          舉報
          第一財經(jīng)廣告合作,請點擊這里
          此內(nèi)容為第一財經(jīng)原創(chuàng),著作權(quán)歸第一財經(jīng)所有。未經(jīng)第一財經(jīng)書面授權(quán),不得以任何方式加以使用,包括轉(zhuǎn)載、摘編、復(fù)制或建立鏡像。第一財經(jīng)保留追究侵權(quán)者法律責(zé)任的權(quán)利。 如需獲得授權(quán)請聯(lián)系第一財經(jīng)版權(quán)部:021-22002972或021-22002335;banquan@yicai.com。

          文章作者

          一財最熱
          點擊關(guān)閉