分享到微信打開微信,點(diǎn)擊底部的“發(fā)現(xiàn)”, |
從天使輪押注DeepWisdom到目前新輪融資,遠(yuǎn)望資本創(chuàng)始合伙人程浩的投資回報(bào)頗豐。AI+創(chuàng)始人和投資人段雨嫣對(duì)記者表示,近期Agent概念因基座模型技術(shù)的成熟而熱度提升,美國(guó)硅谷幾乎每一家公司都在做Agent。
創(chuàng)業(yè)者群體中,Convergence AI 工程負(fù)責(zé)人鄭淺對(duì)記者表示,海外市場(chǎng)垂類Agent早有案例,相對(duì)來說,通用類Agent在OpenAI相關(guān)產(chǎn)品發(fā)布后熱點(diǎn)得到提升。在Pokee AI創(chuàng)始人、前Meta應(yīng)用強(qiáng)化學(xué)習(xí)負(fù)責(zé)人朱哲清的體感上,去年下半年,他所接觸的VC還沒有一家十分清晰地理解公司為什么做、怎么做Agent,而今年春節(jié)前后,包括投資人與潛在客戶,大批行業(yè)人士前來向他咨詢Agent相關(guān)的問題。
整個(gè)人工智能領(lǐng)域熱度的逐漸高漲,背后是不同時(shí)間點(diǎn)不同“爆款”AI產(chǎn)品的助推。包括DeepSeek在春節(jié)期間完成對(duì)大眾關(guān)于大語言模型的教育與普及,1月OpenAI Operator清晰演示了AI Agent的樣板;3月Manus的出圈啟動(dòng)了對(duì)Agent市場(chǎng)的教育。
市場(chǎng)研究機(jī)構(gòu)Gartner 將 Agentic AI 列為 2025 年十大技術(shù)趨勢(shì)之一,并指出到 2028 年至少 15% 的日常工作決策將通過 Agentic AI 自主完成。記者調(diào)研觀察,目前海外市場(chǎng)中,Agent基于資本對(duì)技術(shù)長(zhǎng)期投資、相對(duì)充裕的算力支撐、付費(fèi)習(xí)慣較成熟、資本對(duì)技術(shù)創(chuàng)新與商業(yè)化進(jìn)展的包容等原因,已有不少案例。但在國(guó)內(nèi)市場(chǎng)中,Agent暫處于大廠戰(zhàn)略布局范疇內(nèi),尚未大范圍涌入普通用戶的生活中。
Agent革新與亂象并存
Agent可以翻譯為代理、智能體、助理等,概念最早萌芽于1959年,用于解釋更大系統(tǒng)的自主行為。2010年之后,基于大模型驅(qū)動(dòng),Agent逐漸具備跨任務(wù)知識(shí)遷移和快速學(xué)習(xí)能力,如微軟推出 Microsoft 365 Copilot,通過 Agent 自動(dòng)化辦公流程;OpenAI旗下ChatGPT 插件生態(tài)賦能第三方工具集成;谷歌Project Astra 打造個(gè)人智能助手,整合搜索與多模態(tài)能力。
至于大語言模型(LLM)與Agent之間的關(guān)系,前者接收文字、圖片等內(nèi)容,輸出相應(yīng)文字或圖片,但沒有記憶,無法連接真實(shí)環(huán)境或操作外部工具。Agent以LLM為“大腦”,加上記憶與軀體,可以感知環(huán)境、記憶過程、執(zhí)行任務(wù)、規(guī)劃與行動(dòng)。
近期海內(nèi)外熱點(diǎn)事件推動(dòng),伴隨模型技術(shù)提升,Agent熱度漸起。鄭淺對(duì)記者表示,2025年1月,OpenAI發(fā)布Operator之后,Agent行業(yè)啟動(dòng)了新一輪的熱潮,Convergence AI初期也獲得1200萬美元Pre-seed投資。此前國(guó)外市場(chǎng)中,垂類Agent較為豐富,如聚焦醫(yī)療、金融、法律等具體場(chǎng)景?;诜奖懵涞?、痛點(diǎn)解決精準(zhǔn)而獲得客戶買單。而Operator“打樣”之后,通用型Agent行業(yè)開啟了新輪熱潮,創(chuàng)業(yè)者開啟項(xiàng)目推進(jìn),VC前來咨詢項(xiàng)目技術(shù)更新。
另一種分類方式在鄭淺看來,也可以分為已經(jīng)落地的通用型Agent、備受關(guān)注的開發(fā)中產(chǎn)品,以及為Agent AI提供服務(wù)的產(chǎn)品。通用型如OpenAI的Operator,系行業(yè)第一個(gè)真正落地的通用協(xié)議型Agent,目前僅限美國(guó)地區(qū)使用;Convergence AI Proxy在Operator亮相兩天后向公眾開放,專注于研發(fā)Agent;Anthropic的computer use是一個(gè)企業(yè)級(jí)API服務(wù),嚴(yán)格來說不算產(chǎn)品。但它的推出為這方向的AI產(chǎn)品奠定了技術(shù)基礎(chǔ),影響深遠(yuǎn)。
開發(fā)中的產(chǎn)品如谷歌的Project Magi,最初Demo在去年12月,核心方向偏向人機(jī)交互,目標(biāo)將AI Agent整合到Chrome瀏覽器中,但目前官方未透露更多細(xì)節(jié)。服務(wù)型產(chǎn)品如BrowserBase和Browser Use,是為瀏覽器Agent提供虛擬瀏覽器服務(wù)的公司;Microsoft Azure正在緊鑼密鼓研究為AI Agent提供虛擬機(jī)服務(wù)。
另外,目前Agent也可粗淺分為垂直型與通用型。Monica雖然官方宣稱推出通用型AI Agent Manus,官方演示案例中涉及了簡(jiǎn)歷篩選、股票分析、購(gòu)房推薦、課程設(shè)計(jì)、文娛創(chuàng)作等多個(gè)種類,輸出形式包括文檔、圖像、音頻、Dashboard等不同類型的輸出。但由于垂直功能不夠精準(zhǔn),反而側(cè)面證明通用型Agent目前難以完成垂直功能的“專精深”。
需注意的是,Agent熱度的暴漲也使得目前行業(yè)存在“Agent Washing”(智能體清洗)的亂象。AW是指AI領(lǐng)域中,部分企業(yè)通過重新包裝現(xiàn)有技術(shù)或簡(jiǎn)單自動(dòng)化工具,宣稱其具備 AI Agent功能,但實(shí)際并未驗(yàn)證或?qū)崿F(xiàn)真正的自主決策、學(xué)習(xí)和適應(yīng)能力的現(xiàn)象,利用市場(chǎng)對(duì) AI Agent 的熱度進(jìn)行營(yíng)銷,導(dǎo)致市場(chǎng)混淆和誤導(dǎo)性投資。
具體如將傳統(tǒng)的聊天機(jī)器人、RPA(機(jī)器人流程自動(dòng)化)工具或基于規(guī)則的系統(tǒng)重新命名為 “AI Agent”,但核心功能仍依賴預(yù)設(shè)指令或簡(jiǎn)單邏輯,缺乏自主性?;蛘咝Q產(chǎn)品具備 “自主決策”“持續(xù)學(xué)習(xí)” 等能力,但實(shí)際無法處理復(fù)雜環(huán)境或未預(yù)見情況,如將簡(jiǎn)單的郵件自動(dòng)回復(fù)工具稱為 “銷售智能體”,將固定流程的客服腳本包裝為 “智能服務(wù)代理”。還有一種是模糊 “AI 助手”“工具” 與 “AI Agent” 的邊界,如將僅提供信息檢索的工具宣傳為具備獨(dú)立行動(dòng)能力的智能體。
AI Agent行業(yè)早期,泛濫的“Agent Washing”亂象可能導(dǎo)致企業(yè)因誤判技術(shù)價(jià)值投入資金,卻未能獲得預(yù)期的自動(dòng)化或效率提升,導(dǎo)致資源浪費(fèi);用戶對(duì)AI Agent的實(shí)際能力產(chǎn)生懷疑,阻礙真正創(chuàng)新技術(shù)的落地;以及虛假宣傳掩蓋實(shí)時(shí)性差、可解釋性弱等真實(shí)技術(shù)瓶頸,導(dǎo)致市場(chǎng)過熱與后續(xù)回調(diào)風(fēng)險(xiǎn)。在具體判斷與界定上,用戶可以通過相關(guān)產(chǎn)品能否在無人工干預(yù)下完成任務(wù)、是否支持動(dòng)態(tài)優(yōu)化策略、能否應(yīng)對(duì)未預(yù)設(shè)的場(chǎng)景、能否清晰展示決策過程、是否支持與其他系統(tǒng)或人類協(xié)同工作等方面進(jìn)行區(qū)分。
垂類與通用Agent將并存
那么,Agent具體是何如運(yùn)作的?
在工作模式上,吳恩達(dá)此前提及,在應(yīng)用中構(gòu)建具有Agentic推理或Agentic工作流的方法有四種主要設(shè)計(jì)模式:反思型設(shè)計(jì)模式、tool use(API calls功能調(diào)用)、規(guī)劃或推理、多智能體協(xié)作(Multi-agent Collaboration多智能體協(xié)作)等。
在這樣的工作方式分類邏輯下,Manus以明顯的tool use形式破圈傳播。但在用戶使用端,多位行業(yè)人士對(duì)記者表達(dá)了“早期階段”的判斷。一位AI領(lǐng)域從業(yè)者對(duì)記者表示,Manus在長(zhǎng)期任務(wù)中表現(xiàn)較差,多個(gè)步驟的任務(wù)會(huì)因?yàn)槊恳徊降募?xì)微誤差被放大,導(dǎo)致最終失敗。核心問題是工具能力較差,雖做了規(guī)劃和計(jì)劃,但實(shí)際執(zhí)行出來的效果不及預(yù)期,所以導(dǎo)致整個(gè)任務(wù)失敗。這方面的原因不在規(guī)劃能力,而是規(guī)劃了卻沒有足夠的tools去執(zhí)行,或者tools太簡(jiǎn)單,導(dǎo)致復(fù)雜問題無法處理,而tools豐富生態(tài)的搭建需要足夠資金實(shí)力支撐才能破解。
另外,行業(yè)人士對(duì)記者表示,Manus目前屬于“堆tools”的形式,而這種形式無法進(jìn)行持續(xù)進(jìn)化。朱哲清也認(rèn)為,做Agent需要考慮的幾個(gè)板塊包括通用性、算力部署要求、工具調(diào)用能力、執(zhí)行力。其中,工具調(diào)用是比較復(fù)雜的問題。
AI工程師、Pleias聯(lián)合創(chuàng)始人 亞歷山大·多里亞(Alexander Doria )此前發(fā)文表示,未來 AI 智能體的發(fā)展方向會(huì)是模型本身,而不是工作流(Work Flow)。而Manus 基于預(yù)先編排好的提示詞與工具路徑構(gòu)成的工作流智能體,短期或許表現(xiàn)不錯(cuò),但長(zhǎng)期必然遇到瓶頸,核心原因就是提示驅(qū)動(dòng)的方式無法擴(kuò)展,也無法真正處理那些需要長(zhǎng)期規(guī)劃、多步驟推理的復(fù)雜任務(wù)。
中金公司研究部認(rèn)為,相比于上述海外廠商在Agent底層技術(shù)上的創(chuàng)新,Manus更多是一種模式上的創(chuàng)新:Manus證明了多代理模式可以相對(duì)容易地實(shí)現(xiàn)通用AI Agent的落地,這也與海外廠商推出構(gòu)建模塊、統(tǒng)一API協(xié)議的目的比較類似;“展示過程”的形式有助于降低大眾的理解門檻,提高用戶對(duì)AI產(chǎn)物的信任度,并催化AI Agent實(shí)現(xiàn)大規(guī)模落地。
中金公司引用LangChain(專注于AI應(yīng)用開發(fā)的開源框架提供商)調(diào)查報(bào)告顯示:人們?cè)陂L(zhǎng)耗時(shí)任務(wù)中對(duì)AI Agent有較大需求,但同時(shí),用戶對(duì)AI Agent普遍存在“完成質(zhì)量”或“可靠性”方面的擔(dān)憂,AI Agent在復(fù)雜場(chǎng)景中并不一定能夠持續(xù)保持響應(yīng)和問題解決路徑的準(zhǔn)確性,因此有一半以上的受訪者在實(shí)際使用中會(huì)為AI Agent補(bǔ)充跟蹤和觀察的控件。
拋開通用Agent早期尚存的不足,鄭淺更看好通用型Agent的前景。一方面,OpenAI的Operator已經(jīng)為行業(yè)“打了樣”,另一方面,通用型可以通過簡(jiǎn)單化任務(wù)、小體量模型完成,在海外算力較為充足的背景下,通用型Agent比拼的主要是小模型與工程能力。模型不是越大越好,而是適合才好,工程也是Agent領(lǐng)域重要影響因素。
更重要的是,鄭淺認(rèn)為,通用型Agent可以同時(shí)自主完成不同任務(wù),具備規(guī)劃和重新規(guī)劃能力,而實(shí)現(xiàn)這一功能的核心就是Agent另一個(gè)“大腦”——Agent Orchestrator。上文所提LLM是Agent進(jìn)行思考和決策的核心組件,在多Agent系統(tǒng)中,LLM負(fù)責(zé)單個(gè)Agent內(nèi)部語言處理和決策,Agent orchestrator負(fù)責(zé)決定哪個(gè) Agent來處理特定的任務(wù),以及如何在多個(gè) Agent 之間傳遞信息,讓Agent各司其職,最大化效率。
基于這樣的邏輯,鄭淺判斷通用型Agent中,并行Agent將是未來趨勢(shì)。但整個(gè)行業(yè)內(nèi),垂類Agent將與通用Agent長(zhǎng)期并存甚至達(dá)成“合作”,例如垂類工具接入通用Agent平臺(tái),補(bǔ)足后者在具體行業(yè)方面的欠缺。
大廠蓄勢(shì),行業(yè)尚早
任何一個(gè)新興領(lǐng)域,創(chuàng)業(yè)者都免不了面臨“大廠來了”怎么辦的問題。程浩稱:PC互聯(lián)網(wǎng)時(shí)代,VC對(duì)創(chuàng)業(yè)者最常見的問題是“你這個(gè)項(xiàng)目如果騰訊做了怎么辦?”進(jìn)入AI時(shí)代,VC仍然會(huì)問此類問題,只是騰訊變成了字節(jié)。
據(jù)記者了解,字節(jié)跳動(dòng)Dev Infra團(tuán)隊(duì)已開發(fā)出一款功能類似Manus的智能體產(chǎn)品,名為Dev Agent,主要通過集成內(nèi)網(wǎng)知識(shí)庫(kù)與多種內(nèi)部工具實(shí)現(xiàn)調(diào)研、開發(fā)、數(shù)據(jù)分析等任務(wù)。記者獲悉,Dev Agent是一款實(shí)驗(yàn)性質(zhì)的內(nèi)部工具,僅面向開發(fā)部門內(nèi)測(cè)使用。
在技術(shù)方面,字節(jié)此前提出基于強(qiáng)化學(xué)習(xí)(RL)的 LLM Agent 框架 AGILE,會(huì)主動(dòng)向人類專家咨詢,增強(qiáng)了快速適應(yīng)新任務(wù)的泛化能力。產(chǎn)品方面,“Coze 扣子” 作為 AI bot 開發(fā)平臺(tái),堪稱字節(jié)版GPTs,提供豐富的Agent工具。目前豆包電腦版APP已呈現(xiàn)瀏覽器模式,將已有AI工具匯總調(diào)用,輸入“撰寫一段貪吃蛇的代碼并運(yùn)行”,豆包可調(diào)用工具、演示過程、最終運(yùn)行。
阿里主推的AI時(shí)代代表應(yīng)用夸克近期推出“超級(jí)框”概念,阿里巴巴智能信息事業(yè)群總裁的吳嘉表示,“超級(jí)框”不是ChatBot或搜索,而是直接交付結(jié)果的“超級(jí)Agent”——用戶在“框”中表達(dá)意圖,AI會(huì)調(diào)用工具與方法來幫你寫一份工作報(bào)告、旅游計(jì)劃,或是一份就醫(yī)指南。
目前在整個(gè)阿里集團(tuán)戰(zhàn)略布局中,夸克被寄望于搭建AI時(shí)代“超級(jí)入口”,但同時(shí),作為試水探路者,目前夸克方面暫未嘗試重投入,因此在Agent模式上,暫時(shí)處于阿里自有工具調(diào)用的早期形式,未接入增加更多算力耗費(fèi)與技術(shù)復(fù)雜性的中間調(diào)優(yōu)與反饋。
除上述大廠案例,記者觀察到的主流Agent代表案例暫時(shí)集中于海外市場(chǎng)。談及海外大廠的競(jìng)爭(zhēng),鄭淺對(duì)記者表示,各行業(yè)有各自專攻領(lǐng)域。OpenAI、Anthropic及Deepmind在模型研發(fā)方面確實(shí)強(qiáng)大,但他們?cè)诋a(chǎn)品開發(fā)方面表現(xiàn)不佳。如過去兩年OpenAI推出了GPTs或Prompt Store等多款產(chǎn)品,但大多是失敗的。
另外,Agent公司的創(chuàng)業(yè)核心競(jìng)爭(zhēng)力在于其Agentorchestrator。目前雖有開源模型,但沒有人開源真正的Agentorchestrator,各家公司都有獨(dú)特做法。如何構(gòu)建有效的AgentOrchestrator的能力在未來一兩年內(nèi)都將是Agent創(chuàng)業(yè)公司重要的核心競(jìng)爭(zhēng)力。
目前在Agent生態(tài)構(gòu)建呈現(xiàn)大廠定制規(guī)則、創(chuàng)業(yè)公司沖刺創(chuàng)新的局面,大廠相繼推出構(gòu)建模塊、構(gòu)建平臺(tái)等Agent開發(fā)工具,打造專有生態(tài)。
2025年3月11日OpenAI發(fā)布了其第一組構(gòu)建模塊,通過Response API,用戶通過幾行代碼調(diào)用OpenAI的內(nèi)置工具來構(gòu)建符合自身需求的Agent,而無需再專門編寫調(diào)用外部工具的復(fù)雜代碼,大大簡(jiǎn)化了Agent開發(fā)的流程。區(qū)別于建立一站式構(gòu)建平臺(tái),Anthropic推出MCP開放標(biāo)準(zhǔn),同樣致力于提升Agent開發(fā)能力和效率。
但目前行業(yè)對(duì)MCP持有不同觀點(diǎn),鄭淺對(duì)記者表示,MCP 更像是一個(gè) API,雖然使用起來方便,但其可擴(kuò)展性和適用性都有一定局限。如果要構(gòu)建真正的通用型 Agent,僅依靠 MCP 的接口會(huì)受到限制,因?yàn)橹С值能浖邢蕖?/p>
朱哲清告訴記者,長(zhǎng)期來看,協(xié)議統(tǒng)一對(duì)于某個(gè)Agent體系的構(gòu)建非常重要,但目前來看,協(xié)議在短期內(nèi)不會(huì)有共識(shí),原因在于還沒有哪家Agent公司已經(jīng)做到最好。要等出現(xiàn)一家公司將Agent商業(yè)化應(yīng)用做到很好的情況下,才會(huì)吸引很多人用它的工具,才有可能統(tǒng)一市場(chǎng)。而目前,即便是較早面世的MCP,所帶來的價(jià)值也有限,MCP可以幫助工具標(biāo)準(zhǔn)化,但大多數(shù)情況下工具都不是標(biāo)準(zhǔn)化的。Claude集成的MCP Agent也更多處于開發(fā)者測(cè)試和體驗(yàn)的狀態(tài),還沒有到商用的程度。
OpenAI創(chuàng)始人Sam Altman:將在幾周內(nèi)發(fā)布o(jì)3、o4-MINI;谷歌宣布一個(gè)新的實(shí)驗(yàn)性人工智能模型Sec-Gemini V1。
“應(yīng)用為王”這一理念在大模型技術(shù)發(fā)展與落地中尤為重要,已經(jīng)成為產(chǎn)業(yè)界、企業(yè)界最迫切解決的一個(gè)課題。
螞蟻?zhàn)匝?900億大模型用國(guó)產(chǎn)AI芯片完成高效訓(xùn)練;京東入局具身智能,已成立多支團(tuán)隊(duì)進(jìn)行前沿研發(fā)。
下一步,張江集團(tuán)和智譜將通過共建平臺(tái)構(gòu)建孵化生態(tài),鏈接技術(shù)創(chuàng)新與市場(chǎng)需求,促進(jìn)垂類模型成果轉(zhuǎn)化。
數(shù)據(jù)風(fēng)控是當(dāng)務(wù)之急。