亚洲中文字乱码免费播放,精品国产日韩专区欧美第一页,亚洲中文有码字幕青青,亚洲综合另类专区在线

<thead id="r45x6"></thead>

<em id="r45x6"><td id="r45x6"><form id="r45x6"></form></td></em>

首頁 > 新聞 > 科技

分享到微信

打開微信，點擊底部的“發(fā)現(xiàn)”，
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。

站在DeepSeek肩上，具身智能“起跳”

第一財經(jīng) 2025-02-06 18:52:15 聽新聞

作者：喬心怡責(zé)編：李娜

如果能夠利用Align-R1-V的跨模態(tài)穿透能力實現(xiàn)機器人Action領(lǐng)域的穿透，或許機器人端到端大模型板塊的最后一塊拼圖，將會被很快補齊。

DeepSeek開源之后，巨量的協(xié)作者涌入，技術(shù)邊界的探索如火如荼。從長文本到圖文等多模態(tài)的推理能力，在具身智能領(lǐng)域，誰有機會成為第一個吃DeepSeek螃蟹的人？

2月6日，北京大學(xué)聯(lián)合香港科技大學(xué)發(fā)布了多模態(tài)版DeepSeek-R1——Align-DS-V。在DeepSeek R1開源的基礎(chǔ)之上，團隊基于自研框架align-anything，將純文本模態(tài)的Deepseek R1 系列模型拓展至了圖文模態(tài)。多模態(tài)場景加持之下，Align-DS-V能否打破單一文本推理界限，成為了研發(fā)團隊的下一個聚焦點。

該項目指導(dǎo)教師北京?學(xué)??智能研究院楊耀東助理教授告訴第一財經(jīng)記者，Align-R1-V的多模態(tài)強推理能力同樣也能夠成為機器人VLA（Vision Language Action，視覺語言行動）模型大腦端的核心。如果能夠利用Align-R1-V的跨模態(tài)穿透能力實現(xiàn)機器人Action領(lǐng)域的穿透，或許機器人端到端大模型板塊的最后一塊拼圖，將會被很快補齊。

站在DeepSeek肩上挑戰(zhàn)全模態(tài)

全模態(tài)的信息處理能力，對于人類來說習(xí)以為常，但對于機器人來說，仍然是一個復(fù)雜的程序。

“一個遙控器，放在任何位置，人都能輕而易舉地拿到，但機器人不具備這樣的能力。”具身大模型企業(yè)靈初智能的創(chuàng)始人兼CEO王啟斌告訴第一財經(jīng)記者，人類能夠通過視覺、聽覺、觸覺等多個模態(tài)能力輕松完成這件事。但在機器人的思考邏輯里，“拿遙控器”這個動作是“牽一發(fā)而動全身”的事情。

感知層面，機器人需要依靠攝像頭等視覺傳感器進行定位和導(dǎo)航，也許還需要通過深度攝像頭等深度傳感器獲得環(huán)境信息，為后續(xù)的規(guī)劃提供依據(jù)。

在大腦側(cè)，為了拿到遙控器，機器人需要實時感知環(huán)境變化和自身狀態(tài)，做出相應(yīng)的決策，比如，當(dāng)沙發(fā)上有其他物品擋住了遙控器，機器人的大腦就需要重新規(guī)劃機械臂的運動路徑，或者調(diào)整抓取策略。

僅是“拿”這一個動作，機器人還需要控制自身的抓夾或靈巧手等末端執(zhí)行器，根據(jù)遙控器的形狀、大小和重量，調(diào)整夾取的力度和方式。“如果這個遙控器是光滑的，那手指的閉合力度反饋就需要非常敏感，既保證能夠夾緊遙控器，又不會讓遙控器滑落。”王啟斌解釋道。

人能夠在幾秒內(nèi)完成思考并執(zhí)行任務(wù)，是因為人類在日常生活中接收到的信息往往是全模態(tài)的。文本、視覺、語言等信息通過不同的感官渠道相互補充，讓人類能夠全面理解和表達復(fù)雜的概念。

“這種全模態(tài)的信息流對于大模型范式轉(zhuǎn)向通用人工智能也一樣重要。”北大團隊方面表示，全模態(tài)拓展會是Deep Seek R1的下一個突破。“我們需要在復(fù)雜的決策場景中構(gòu)建起感知-理解-推演的閉環(huán)認(rèn)知體系，才能在具身智能等領(lǐng)域拓展智能邊界。”

當(dāng)前，Align-DS-V已經(jīng)將DeepSeek R1系列模型拓展至了圖文模態(tài)。“全模態(tài)大模型仍然是我們努力的方向。”北大團隊方面表示，未來，支持任意模態(tài)輸入并生成任意模態(tài)輸出的全模態(tài)大模型將成為大模型的里程碑，“不過，如何將全模態(tài)大模型和人類意圖對齊，仍然是一個重要的挑戰(zhàn)”。

強化學(xué)習(xí)“開掛”

DeepSeek R1-Zero和Align-DS-V的出現(xiàn)，不斷證明著強化學(xué)習(xí)的潛力。據(jù)了解，DeepSeek R1-Zero 從基礎(chǔ)模型構(gòu)建開始，就完全依賴強化學(xué)習(xí)（RL），?不使??類專家標(biāo)注的監(jiān)督微調(diào)（SFT）。

“機器人想要進入更多的場景，在復(fù)雜的交互環(huán)境中作業(yè)，強化學(xué)習(xí)是必經(jīng)之路。”師從李飛飛的靈初智能聯(lián)合創(chuàng)始人陳源培告訴第一財經(jīng)記者，機器人和環(huán)境的交互是一個復(fù)雜的過程，很難通過人工來設(shè)計一個精確的模型，如果只是通過深度學(xué)習(xí)的方法來訓(xùn)練，機器人在不同場景中對不同對象的操作靈活性難以保證，且需要大量的高質(zhì)量數(shù)據(jù)或樣本，成本高昂。

他向記者解釋，如果采用強化學(xué)習(xí)的路徑，能夠利用改變獎勵函數(shù)的方式推動機器人訓(xùn)練，并通過大量的仿真數(shù)據(jù)來完成訓(xùn)練。

“我們看到目前市面上絕大多數(shù)的機器人還是在展示單一的抓取能力，但在實際的應(yīng)用中，抓取目標(biāo)完全孤立的狀況非常少。”王啟斌表示，機器人在工作中，常常面對的是雜亂的環(huán)境，物體和物體之間存在不少的堆疊和遮擋，這給機器人準(zhǔn)確識別目標(biāo)和確定適當(dāng)?shù)淖ト∥恢脦砹颂魬?zhàn)。

正因如此，王啟斌認(rèn)為，機器人的多技能串聯(lián)能力是始終必要的。“能否盡快理解物體所具有的復(fù)雜物理屬性，始終是機器人必須解決的問題。”王啟斌表示，他認(rèn)為比較務(wù)實的路徑是，三年之內(nèi)，機器人能夠在有限的技能之內(nèi)實現(xiàn)物體泛化，“就比如說在物體打包領(lǐng)域，機器人能夠針對不同的物體熟練地進行分揀、打包、掃碼，這也是我們想要迭代的方向”。

具身大模型加速硬件綁定

如今，具身智能領(lǐng)域的大模型競爭正快速向具體場景收攏。去年年底，靈初智能發(fā)布了基于強化學(xué)習(xí)的端到端具身模型Psi R0。在Psi R0的支持下，靈巧手能夠?qū)⒍鄠€技能串聯(lián)，在混合訓(xùn)練后生成具有推理能力的智能體，并實現(xiàn)跨場景、跨物體的泛化。

同月，星動紀(jì)元發(fā)布了端到端原生機器人大模型ERA-42，并展示了大模型和星動XHAND1靈巧手結(jié)合后的操作能力。根據(jù)星動紀(jì)元的展示，搭載ERA-42的靈巧手已經(jīng)能夠完成用錘子敲打釘子、拿起桌上螺釘鉆鉆進螺釘?shù)炔僮鳌?/p>

1月9日，銀河通用發(fā)布GraspVLA，號稱這是全球首個端到端具身抓取基礎(chǔ)大模型（Foundation Model）。根據(jù)銀河通用披露的內(nèi)容，GraspVLA 使用合成數(shù)據(jù)預(yù)訓(xùn)練，在后訓(xùn)練的過程中，能夠針對特定需求，將小樣本學(xué)習(xí)即可遷移基礎(chǔ)能力到特定場景。

從具身智能企業(yè)最新發(fā)布的大模型中，不難看出，越來越多的企業(yè)正在將大模型和操作場景進行強關(guān)聯(lián)綁定，這是否也意味著具身智能大模型的應(yīng)用場景正在逐漸收斂？薩摩耶云科技集團AI機器人行業(yè)研究員鄭揚洋告訴第一財經(jīng)記者，盡管大模型增強了機器人的學(xué)習(xí)、語義理解、推理及判斷能力，但在從理解、推理、判斷、執(zhí)行到運動的過程中，還涉及其他多種模型算法和軟硬件協(xié)同的問題。

“與其說是場景的收斂，不如說是企業(yè)在變得更加現(xiàn)實。”鄭揚洋判斷，企業(yè)未來會更多聚焦到操作場景當(dāng)中，持續(xù)迭代機器人的技能級，并提高軟件和硬件的耦合程度。“具身智能的大模型版圖才剛剛開始搭建，聚焦更明確的場景和能力，對于企業(yè)來說，性價比也比較高。”

鄭揚洋指出，像Align-R1-V這樣的大模型出現(xiàn)，意味著具身智能VLA模型擁有跨模態(tài)穿透的認(rèn)知大腦，但仍然需要通過動作生成模塊、實時控制系統(tǒng)、物理交互數(shù)據(jù)和安全框架的補齊，才能夠?qū)崿F(xiàn)多模態(tài)理解到具身智能體的跨越。“軟件模型和機器人硬件，比如機械臂、靈巧手、驅(qū)動芯片等的集成，還需要一定時間。”鄭揚洋說。

DeepSeek爆火之后，當(dāng)大模型從文本模態(tài)擴展至多模態(tài)、全模態(tài)場景之下，更多問題也相繼而來。“多模態(tài)擴展到全模態(tài)空間，模態(tài)交互更加復(fù)雜，RL?法需要做哪些改進？模態(tài)數(shù)量增加，傳統(tǒng)?元偏好或規(guī)則獎勵是否能夠捕捉?類意圖的多元偏好？這些都是我們需要解決的問題。”楊耀東說。

舉報

第一財經(jīng)廣告合作，請點擊這里

此內(nèi)容為第一財經(jīng)原創(chuàng)，著作權(quán)歸第一財經(jīng)所有。未經(jīng)第一財經(jīng)書面授權(quán)，不得以任何方式加以使用，包括轉(zhuǎn)載、摘編、復(fù)制或建立鏡像。第一財經(jīng)保留追究侵權(quán)者法律責(zé)任的權(quán)利。如需獲得授權(quán)請聯(lián)系第一財經(jīng)版權(quán)部：021-22002972或021-22002335；banquan@yicai.com。

文章作者

喬心怡

相關(guān)閱讀

蔡司在滬購地自建大中華區(qū)總部園區(qū)，浦東掀新一輪招商引資熱潮

2025年，浦東重大建設(shè)項目年度投資規(guī)模1692億元，繼續(xù)保持穩(wěn)步增長。其中，科技產(chǎn)業(yè)類投資規(guī)模進一步擴大，年度投資1212億元，占比71%。

DeepSeek掀桌，能讓機器人“看穿”世界嗎？

如果DeepSeek能夠用十分之一的成本達到GPT-o1級別的表現(xiàn)，那一直以來困囿于訓(xùn)練成本高昂的具身智能企業(yè)，是否有機會用更短的時間訓(xùn)練出一個更智能、更通用的具身智能大模型？

1380 01-28 10:23

一群中國AI創(chuàng)業(yè)者從硅谷歸來，解鎖這些新認(rèn)知

重塑AI世界的力量不僅僅在硅谷，更在新一代全球化創(chuàng)業(yè)者的手中。

1329 01-25 10:05

具身智能：工業(yè)場景或率先落地，發(fā)展仍面臨多維度挑戰(zhàn)︱2025潛力賽道展望

具身智能機器人的關(guān)鍵在于具身智能的底層技術(shù)，而非機器人的物理形狀。

197 01-22 16:09

維他動力獲得種子輪融資，汽車人加速涌入具身智能賽道

維他動力于2024年底在北京成立，其創(chuàng)始團隊來自地平線、理想汽車等汽車產(chǎn)業(yè)鏈公司。

128 01-22 12:38

一財最熱

點擊關(guān)閉

<dfn id="ezhcd"><label id="ezhcd"></label></dfn>

<thead id="ezhcd"></thead>