分享到微信打開(kāi)微信,點(diǎn)擊底部的“發(fā)現(xiàn)”, |
4月10日,商湯科技在2025技術(shù)交流日上推出升級(jí)的“日日新SenseNova V6”(下稱(chēng)“日日新V6”)大模型體系,通過(guò)多模態(tài)長(zhǎng)思維鏈訓(xùn)練、全局記憶、強(qiáng)化學(xué)習(xí)的技術(shù)突破,形成多模態(tài)推理能力。
在長(zhǎng)思維鏈、推理、數(shù)理、全局記憶方面,日日新V6多模態(tài)推理能力對(duì)標(biāo)OpenAI o1,數(shù)據(jù)分析能力領(lǐng)先GPT-4o,并且涵蓋國(guó)內(nèi)首個(gè)支持10分鐘中長(zhǎng)視頻深度解析的大模型。
“現(xiàn)在已經(jīng)可以做到分析10分鐘的視頻,不是用rag的方法而是整個(gè)框架視頻都通過(guò)自研的視頻壓縮技術(shù),我們會(huì)在今年內(nèi)做到一個(gè)小時(shí)的視頻整個(gè)放進(jìn)輸入窗口來(lái)進(jìn)行分析。”商湯科技執(zhí)行董事及聯(lián)合創(chuàng)始人、商湯大模型首席科學(xué)家林達(dá)華向媒體表示,對(duì)視頻做分析理解是跟快手可靈等視頻大模型相對(duì)錯(cuò)位的競(jìng)爭(zhēng),比起文本性的內(nèi)容消費(fèi),視頻、圖文結(jié)合是更大的內(nèi)容消費(fèi)市場(chǎng)。
不同于其他的上下文窗口都是純文本Token,日日新V6可以把語(yǔ)音、視頻、文字形成一個(gè)統(tǒng)一跟時(shí)間軸對(duì)齊的上下文表達(dá)。而這個(gè)潛力正與具身智能的發(fā)展相呼應(yīng),在交互方面,多模態(tài)上下文表達(dá)使得人機(jī)交互更加自然和高效,從學(xué)習(xí)和泛化能力來(lái)看,多模態(tài)上下文表達(dá)也將為具身智能體提供了更豐富的訓(xùn)練數(shù)據(jù)?,F(xiàn)場(chǎng)傅利葉、松應(yīng)科技兩家機(jī)器人公司也分別與商湯科技進(jìn)行了戰(zhàn)略簽約。
“選擇具身智能并不是我主動(dòng)的選擇,更多的還是主要在服務(wù)科技創(chuàng)新的群體。”商湯科技聯(lián)合創(chuàng)始人、大裝置事業(yè)群總裁楊帆說(shuō)。同時(shí)做基礎(chǔ)大裝置和大模型是商湯科技的一大特色,其中比較典型的協(xié)同場(chǎng)景是對(duì)推理過(guò)程做預(yù)填充和解碼的分離,這是一種架構(gòu)優(yōu)化技術(shù),可以提升 GPU 硬件利用率并降低推理延遲。
在這一點(diǎn)上商湯科技也與阿里、騰訊這類(lèi)既有云業(yè)務(wù)又有自研大模型的業(yè)務(wù)類(lèi)似,并且較大廠而言業(yè)務(wù)專(zhuān)注力更加“純粹”。“大裝置最開(kāi)始的初心和愿景,就是要去提高AI模型的生產(chǎn)和應(yīng)用的性?xún)r(jià)比,要去降低它的門(mén)檻。”楊帆表示。
a16z擬募資200億美元基金投向人工智能領(lǐng)域;王小川反思百川智能此前戰(zhàn)線拉得太長(zhǎng)。
4月9日,紹興市上虞區(qū)舉行杭州灣具身智能創(chuàng)新中心發(fā)布儀式,全力搶占人工智能與實(shí)體經(jīng)濟(jì)融合的制高點(diǎn)。
有的LP希望賺取高確定性的盈利,有的LP追求技術(shù)創(chuàng)新的長(zhǎng)線投資。
在教育部推進(jìn)新工科建設(shè)以來(lái),以AI為代表的專(zhuān)業(yè)增設(shè)火熱推進(jìn)。