分享到微信打開微信,點擊底部的“發(fā)現(xiàn)”, |
谷歌DeepMind 近日公布了一項利用 AI 為無聲視頻生成背景音樂的“video-to-audio”技術(shù)。
當(dāng)前 DeepMind 這款 AI 模型依然存在局限性,需要開發(fā)者使用提示詞為模型預(yù)先“介紹”視頻可能的聲音,暫時不能直接根據(jù)視頻畫面添加具體音效。
據(jù)悉,該模型首先會將用戶輸入的視頻進(jìn)行拆解,此后結(jié)合用戶的用戶文字提示,利用擴散模型反復(fù)運算,最終以生成與視頻畫面協(xié)調(diào)的背景聲音,例如輸入一條“在黑暗中行走”的無聲視頻,再添加“電影、恐怖片、音樂、緊張、混凝土上的腳步聲”等文字提示,相關(guān)模型就能生成恐怖風(fēng)格的背景音效。
DeepMind 同時表示,該“video-to-audio”模型可以為任何視頻生成無限數(shù)量的音軌,還能夠通過提示詞內(nèi)容判斷生成的音頻“正向性”或“反向性”,從而令生成的聲音更貼近某些特定場景。
因服務(wù)器資源緊張,DeepSeek已暫停API服務(wù)充值
抄底英偉達(dá)與否并非核心問題,關(guān)鍵在于技術(shù)的發(fā)展將加速“模型平價”(model parity),這將惠及更多消費者。
第一財經(jīng)星翼大模型以DeepSeek V2.5為基座模型,結(jié)合多模態(tài)能力和財經(jīng)專業(yè)數(shù)據(jù),提供智能化財經(jīng)信息服務(wù)。
該模型可以通過可視化的方式展示整個思維鏈過程,能持續(xù)輸出全部推理過程,而不是直接給出答案。
2025年火車票明天起售