分享到微信

打開(kāi)微信，點(diǎn)擊底部的“發(fā)現(xiàn)”，
使用“掃一掃”即可將網(wǎng)頁(yè)分享至朋友圈。

商湯推出“日日新V6”，將加持具身“智能”

第一財(cái)經(jīng) 2025-04-11 13:48:05 聽(tīng)新聞

作者：寧佳彥責(zé)編：彭海斌

商湯科技在2025技術(shù)交流日上推出了升級(jí)的“日日新SenseNova V6”大模型體系。

4月10日，商湯科技在2025技術(shù)交流日上推出升級(jí)的“日日新SenseNova V6”（下稱(chēng)“日日新V6”）大模型體系，通過(guò)多模態(tài)長(zhǎng)思維鏈訓(xùn)練、全局記憶、強(qiáng)化學(xué)習(xí)的技術(shù)突破，形成多模態(tài)推理能力。

在長(zhǎng)思維鏈、推理、數(shù)理、全局記憶方面，日日新V6多模態(tài)推理能力對(duì)標(biāo)OpenAI o1，數(shù)據(jù)分析能力領(lǐng)先GPT-4o，并且涵蓋國(guó)內(nèi)首個(gè)支持10分鐘中長(zhǎng)視頻深度解析的大模型。

“現(xiàn)在已經(jīng)可以做到分析10分鐘的視頻，不是用rag的方法而是整個(gè)框架視頻都通過(guò)自研的視頻壓縮技術(shù)，我們會(huì)在今年內(nèi)做到一個(gè)小時(shí)的視頻整個(gè)放進(jìn)輸入窗口來(lái)進(jìn)行分析。”商湯科技執(zhí)行董事及聯(lián)合創(chuàng)始人、商湯大模型首席科學(xué)家林達(dá)華向媒體表示，對(duì)視頻做分析理解是跟快手可靈等視頻大模型相對(duì)錯(cuò)位的競(jìng)爭(zhēng)，比起文本性的內(nèi)容消費(fèi)，視頻、圖文結(jié)合是更大的內(nèi)容消費(fèi)市場(chǎng)。

不同于其他的上下文窗口都是純文本Token，日日新V6可以把語(yǔ)音、視頻、文字形成一個(gè)統(tǒng)一跟時(shí)間軸對(duì)齊的上下文表達(dá)。而這個(gè)潛力正與具身智能的發(fā)展相呼應(yīng)，在交互方面，多模態(tài)上下文表達(dá)使得人機(jī)交互更加自然和高效，從學(xué)習(xí)和泛化能力來(lái)看，多模態(tài)上下文表達(dá)也將為具身智能體提供了更豐富的訓(xùn)練數(shù)據(jù)?，F(xiàn)場(chǎng)傅利葉、松應(yīng)科技兩家機(jī)器人公司也分別與商湯科技進(jìn)行了戰(zhàn)略簽約。

“選擇具身智能并不是我主動(dòng)的選擇，更多的還是主要在服務(wù)科技創(chuàng)新的群體。”商湯科技聯(lián)合創(chuàng)始人、大裝置事業(yè)群總裁楊帆說(shuō)。同時(shí)做基礎(chǔ)大裝置和大模型是商湯科技的一大特色，其中比較典型的協(xié)同場(chǎng)景是對(duì)推理過(guò)程做預(yù)填充和解碼的分離，這是一種架構(gòu)優(yōu)化技術(shù)，可以提升 GPU 硬件利用率并降低推理延遲。

在這一點(diǎn)上商湯科技也與阿里、騰訊這類(lèi)既有云業(yè)務(wù)又有自研大模型的業(yè)務(wù)類(lèi)似，并且較大廠而言業(yè)務(wù)專(zhuān)注力更加“純粹”。“大裝置最開(kāi)始的初心和愿景，就是要去提高AI模型的生產(chǎn)和應(yīng)用的性?xún)r(jià)比，要去降低它的門(mén)檻。”楊帆表示。

舉報(bào)

第一財(cái)經(jīng)廣告合作，請(qǐng)點(diǎn)擊這里

此內(nèi)容為第一財(cái)經(jīng)原創(chuàng)，著作權(quán)歸第一財(cái)經(jīng)所有。未經(jīng)第一財(cái)經(jīng)書(shū)面授權(quán)，不得以任何方式加以使用，包括轉(zhuǎn)載、摘編、復(fù)制或建立鏡像。第一財(cái)經(jīng)保留追究侵權(quán)者法律責(zé)任的權(quán)利。
如需獲得授權(quán)請(qǐng)聯(lián)系第一財(cái)經(jīng)版權(quán)部：banquan@yicai.com